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Spiacherkennungseuirichtung mit Mitteln 
zum Beriicksichtigen vfm fnt«dft«ti» ns zwei Spracheieensftliflflwn 



Die Erfindung bezieht sich auf eine Sptacherkennungsemrichtung zum 
Eiiceimeii emer zai einer Sprachmfimnation kotrespondieieiiden Textmfomiation. 

Die Erfindung bezieht sich weiters auf ein Sprachericemiungsverfehren zum 
^iceimen einer zu einer Spcachinformalion koirespondieienden Textinfomiation. 

Die Erfindung bezeiht sich weiters auf ein Computeipiogtaimnprodukti das 
zum Erkennen einer zu einer Sprachinfoimation korrespondierenden Textmformation 
ausgebildet ist 

Die Erfindung bezieht sich weiters auf einen Conq>uter der das 
Computerprogrammprodukt gemaB dem vorstehenden Absatz abarbeitet 



Bane solche Spracherkennungseiiuichtung der eingangs im ersten Absatz 
angefuhrten Gattung und ein solches Sprachericemiungsverfehren der eingangs im zweiten 
Absatz angefiihrten Gattung und ein solches Computerprogrammpro'dukt der eingangs im 
dritten Absatz angefuhrten Gattung und ein solcher Computer der eingangs im vierten 
Absatz angefuhrten Gattung sind aus dem Patentdokument WO 98/08215 bekannt 

Bei der bekannten Spracherkennungseiniichtung sind Spiach-Brkennungsmittel 
vorgesehen, denen fiber ein Mikrofon eine Sprachinfotmation zugefEOut wird Die 
Sprachedceunungsmittel sind unter fortwahrender Berficksichtigung einer 
Eigenschaftsinfotmation, welche den jeweils beim Erkennen der Textinfinmatian zu 
verwenden Kontext reprSsentierti zum Erkemien der Textinformation in der 
Sprachinfermation ausgebildet Zum Zweck des Etzeugens der Eigenschaflsinformation 
weist die Spracheikennungseinrichtung Spracheigenschaft-Erkeanungsmittel aa£, die zum 
Empfengen einer Reprasentation der Sprachinformation von den Sprach- 
Erkennungsmittehi und unter Ausnutzung der Reprasentation der Sprachinformation zum 
Erkennen des jeweils vorliegenden Kontexts als eine die SprachinfomiatiQn 
charakteiisieiende Spracheigenschaft und zum Erzeugen der den vorliegenden Kontext 
repiSsentieienden Eigenschaftsinformation ausgebildet ist 
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Bei der bekannten Spracherkennungsemrichtung besteht das Problem, dass 
zwar das Erkennen einer ehmgen die Sprachinformation charakterisierenden 
Spracheigenschafl:, namlich das Brkennen des jeweils vorliegenden Kontexts, vorgesehen 
is^ jedoch andere die Sprachinformation charakterisierende Spracheigenschaften, wie eine 
S Sprachsegmentierung oder die jeweils verwendete Sprache oder die jeweils vorliegende 
Sprecheign^e, wabrend des Eikennens der Textinformation unberiicksicbtigt bleiben. 
Daher mussen diese unberiicksichtigten Spracheigenschaften vor einem Einsatz der 
bekannten Spracherkennimgseinrichtung vorbekannt sein und — fiir den Fall, dass ihnen 
uberhaupt Rechnung getragen werden kann - gegebenenfalls fix voreingestellt, also 
10 unveranderbar vorkonfiguriert sein, wodurch jedoch der Einsatz der bekannten 
Spracherkennimgseinrichtung bei einem Anwendungsfall, bei dem sich diese 
unbaiicksichtigbaren Spracheigenschaften wahrend des Betriebs — also wahrend des 
Erkennens der Textinformation - verandem, nicht mdglich ist 

15 

Die ErGndimg hat sich zur Aufgabe gestellt, das vorstehend angefuhrte 
Problem bei einer Spracherkennimgseinrichtung der eingangs im ersten Absatz angefuhrten 
Gattung und bei einem Spracherkennungsverfahren der eingangs im zweiten Absatz 
angefuhrten Gattung und bei einem Computerprogranmiprodukt der eingangs im dritten 

20 Absatz angefuhrten Gattung und bei einem Con:q)uter der eingangs im vierten Absatz 

angefuhrten Gattung zu beseitigen und eine verbesserte Spracherkennungseinrichtung und 
ein verbessertes Sprachedcemamgsverfihren und ehi verbessertes 
Ck>mpute]programnaqprodukt imd einen verbesserten Computer zu schaffen. 

Zur Losung der vorstehend angefuhrten Aufgabe sind bei einer 

25 Spracherkennungseinrichtung gemaB der Erfindung erfindungsgem^e Merkmale 
vorgesehen, so dass eine Spracherkennungseinrichtung gemaB der Erfindung auf die 
nachfolgend angegebene Weise charakterisierbar ist, namlich: 

Spracherkennungseinrichtung zum Erkennen einer zu einer Sprachinformation 
kortespondierenden Textmformation, welche Sprachinformation hinsichtlich von 

30 Spracheigenschaften charakterisierbar ist, wobei erste Spracheigenschaft-Erkemiungsmittel 
vorgesehen sind, die unter Ausnutzung der Sprachinformation zum Edcennen einer ersten 
Spracheigenschafl und zum Erzeugen einer die erkannte erste Spracheigenschaft 
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reprasentierenden ersten Eigenschaflsinformation ausgebildet sind, und wobei zumindest 
zweite Spracheigenschaft-Erkeimimgsmittel voigesehen sind, die unter Ausnutzung der 
Sprachinfonnation zum Eikennen einer zweiten ISpracheigenschaft der Sprachinfonnatioii 
und zum Erzeugen einer die erkannte zweite Spracheigenschaft reprasentierenden zweiten 
5 Eigenschaflsinfomiation ausg*ildet ist, und wobei Sptach-fofcennungsmittBl vorgesehen 
sind, die unter fortwahrender BerQcfcsichtigung von zumindest der ersten 
Eigenschaflsinformation und der zweiten Eigenschaflsinformation zum Ericemien der zu 
der ^nachinformation konespondierenden Textinformation ausgebildet sind. 

Zur Ldsung der vorstehend angefuhrten Aufgabe sind bei einem 

10 SpracherkemiungsverMTOngemaBderErfindungerBndungsgemaBeMerkmale 
vorgesehen, so dass ein Spracherkennungsverfehren gemaB der Erflndung auf die 
nachfolgend angegebene Weise charakterisieibar ist, namlich: 

Spracherkennungsver&hren zum Erkennen emer zu einer Sprachinfonuatiom 
korrespondierenden Textinformation, welche SprachinjSjrmation hmsichtiich von 
15 Sptacheigenschaflen charakterisieibar ist, wobei unter Ausnutzung der Sprachinfoimation 
eine erste Spiacheigenschaft erkamrt wild und wobei erne die erkannte erste 
Spiacheigenschaft reprasentieiende erste Eigenschaflsinformation erzeugt wird und wobei 
unter Ausnutzung der Sprachinfonnation mindestens eine zweite Spiacheigenschaft 
erkannt wird und wobei eine die erkannte zweite Spiacheigenschaft reprasentierende 
zweite Eigenschaflsinfomiation eizeugt whd und wobei die zu der Sprachinfonnation 
konespondierende Textinformation unter fortwahrender Beriicksichtigung von zumindest 
der ersten Eigenschaflsinformation und der zweiten Eigenschaflsinformationen ericannt 
wird. 

Zur L5sung der vorstehend angefiihrten Au^abe ist bei emem 
Computerprogtammprodukt gemSB der Erfindung vorgesehen, dass das 
Computerprogrammprodukt direkt m einen Speicher eines Computers geladen werden 
kann und Soflwaiecodeabschnitte umfasst, wobei mit dem Computer das 
Spracherkennungsverfehren gemaB der Erfindung abgearbeitet werden kann, wenn das 
Computerprogrammprodukt auf dem Computer abgearbeitet wird. 

Zur Losung der vorstehend angefuhrten Aa^iabe ist bei emem Computer 
gemaB der Erfindung vorgesehen, dass der Computer eine Recheneinheit und einen 
intemen Speicher aufweist, der das Computerprogrammprodukt gemaB dem vorstehend 
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angefuhrten Absatz abarbeitet 

Durch das Vorsehen der MaBnahmen gemaB der Erfindung ist der Vorteil 
erhalten, dass ein zuverlassiges Erkennen einer Textmfonnatioii in einer Sprachinfotmation 
selbst bei einer Vielzahl von sich wahiend des Erkennens der Textinfoimation 
S verandemden Spiacheigenschaften sichergestellt ist. Daduich ist weiters der Vorteil 
ethalten, dass die Genaui^eit des Brl^nnens deutlich verbessert ist, weil ein durch ein 
Nichtberucksichtigen eines Verandems einer Spracheigenschaft verursacbtes Fehlerkennen 
der Textinformation durch das Erzeugen und Berucksichtigen der mindestens zwei 
Eigenschaftsinformationen auf zuverlassige Weise vermeidbar ist, da ein Verandem einer 

10 der Spiacheigenschaften unmittelbar durch eine dieser Spracheigenschaft zugeordnete 
Eigenschaftsinformation reprasentiert wird und daher wahrend des Erkennens der 
Textinformation berucksichtigbar ist. Dadurch ist weiters der Vorteil erhalten, dass durch 
die Vielzahl der zur Verfugung stehenden Eigenschaftsinformationen eine wesentlich 
genauere Modellierung der Sprache zum Erkemien d^ Textinformation verwendbar ist, 

IS was einen positiven Beitrag zur Genauigkeit des Erkennens der Spracheigenschaften und 
f olglich auch zum Erkennen der Textinformation und weiters auch noch zur 
Geschwindigkeit des Erkemiens der Textinformation Uefert. Dadurch ist weiters der 
Vorteil erhalten, dass ein Einsatz der erfindungsgemaBen Spiacherkennimgseinrichtung in 
einem an die Flexibilitat des Erkennens der Textinformation hochste Anspruche stellenden 

20 Einsatzgebiet, wie beispielsweise bei einem Konferenz-Transkriptionssystem zum 
automatischen Transkribieren von einer bei einer Konferenz auftretenden 
Sprachinformiation, ermSglicht ist. Bei diesem Einsatzgebiet ist sogar ein annahemd 
echtzdtmaBiges &kennen der Textinformation selbst bei einem Vorliegen einer 
Sprachinformation realisierbar, die von unterschiedlichsten Sprechem mit 

25 unterschiedlichen Sprachen erzeugt wurde. 

... Bei den er£bidungsgema£en U>sungen hat es sich weiters als vorteilhaft 
erwiesen, wenn zusatzlich die Merkmale gemaB dem Anspruch 2 bzw. dem Anspruch 7 
vorgesehen sind. Dadurch ist der Vorteil erhalten, dass die Bandbreite eines Audiosignals, 
das zum Emp&Qgen der Sprachinformation eingesetzt wird, wobei die Bandbreite des 

30 Audiosignals von dem jeweiligen Emp:&ngskanal abhangig ist; bei dem Erkennen der 
Eigenschaftsinformationen und/oder bei dem Erkemien der Textinformation 
berucksichtigbar ist. 
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Bei den erfiBdungsgemaBen Losungen hat es sich weiteis als vorteilhaft 
erwiesen, wenn zusatzlich die Merkmale gemafi dem Anspruch 3 bzw. dem Ansfpruch 8 
vorgesehen sind. Dadurch ist der Vorteil ethalten, dass ein Teil der Sprachiiifonnation erst 
dann von den Sprach-Etkennungsmitteln vetarbeitet wird, wenn fiir diesen Teil der 
5 Sprachinfoimation gultige Eigenschaftsinfonnationen vorliegen, also die 
Sptacheig^chaften fiir diesen Teil bestibtnmt wurden, so dass ein unndtiges 
Verschwenden oder Belegen von einer zixm Erkennen der Textinformation bendtigten 
Rechenleistung bzw, von sogenannten Systemiessourcen zuverlassig vermeidbar ist 
Bei den erfindungsgemafien Losungen hat es sich weiters als vorteilhaft 

10 erwiesen, wenn zusatzlich die Meikmale gemaB dem Anspruch 4 bzw. dem Anspmch 9 
vorgesehen sind. Dadurch ist der Vorteil erhalten, dass ein gegenseitiges Beeinflussen der 
mindestens zwei Spracheigenschaft-Exkennungsmittel ermSglicht ist. Dadurch ist weiters 
der Vorteil erhalten, dass ein sequentielles Erkennen der einzelnen Spracheigenschaften in 
einer das Brkennen der Spracheigenschaften begunstigenden Reihenfolge ermoglicht ist, 

IS was einen positiven Beitrag zu der Genauigkeit und der Geschwindigkeit des Erkennens 
der Textinformation leistet und eine verbesserte Ausnutzung von Rechenleistung 
ermSglicht. 

Bei den erfindungsgemaBen Losungen hat es sich weiters als vorteilhaft 
erwiesen, wenn zusatzlich die Merkmale gemafi dem Ansprach 5 bzw. dem Anspmch 10 

20 vorgesehen sind; Dadurch ist der Vorteil erhalten, dass auf moglichst zuv^lassige Weise 
ein Erkennen der jeweiligen Spracheigenschaft in Abhangigkeit von einer anderen 
Spracheigenschaft ermoglicht ist, weil die zum Erkennen der jeweiligen Spracheigenschaft 
ausnutzbare andere Spracheigenschaft erst dann verwendet wird, wenn die zu der anderen, 
also zu der zu berixcksichtig^nden Spracheigenschaft korrespondierende 

25 Eigenschaftsinformation tatsachlich verfiigbar ist. 

Bei einem erfindungsgemaBen Computerprogrammprodukt hat es sich weiters 
als vorteilhaft erwiesen, wenn zusatzlich die Merkmale gemaB dem Anspmch 1 1 
vorgesehen sind. Dadurch ist der Vorteil erhalten, dass das Computerprogrammprodukt 
moglichst einfach vertiieben, verkauft oder vermietet werden kann. 

30 Die vorstehend angefuhrten Aspekte und weitere Aspekte der ErOndung gehen 

aus dem nachfolgend beschrieben Ausfuhrungsbeispiel hervor und sind anhand dieses 
Ausfuhrungsbeispiels erlSutert 
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Die Erfindung wird im Folgenden aohaxid von einem in den Zeichnungen 
daigestellten Ausfuhningsbeispiel weiter beschrieben, auf das die Erfindung aber nicht 
5 beschiSnkt ist. 

Die Figur 1 zeigt auf schematische Weise in Form eines Blockschaltbilds eine 
Sptacherk^inungseinrichtung gemaB einem Ausfuhningsbeispiel der ErGndung. 

Die Figur 2 zeigt auf analoge Weise wie die Figur 1 Audio-Preprozessormittel 
der Spiacherkennungsvorrichtung gema8 der Figur 1, 
10 Die Figur 3 zeigt auf analoge Weise wie die Figur 1 Featurevektor- 

Extrahierungsmittel der Spracherkennungseinrichtung gemaB der Figur 1. 

Die Figur 4 zeigt auf analoge Weise wie die Figur 1 Emp&ngskanal- 
Erkennungsmittel der Spracherkemamgseinriclitung gemSB der Figur 1. 

Die Figur 5 zeigt auf analoge Weise wie die Figur 1 erste Spracheigenschaft- 
1 S Erkennungsmittel der Spracherkemiungseinriclitung g^tnaB der Figur 1 . 

Die Figur 6 zeigt auf analoge Weise wie die Figur 1 zweite Spracheigenschaft- 
Erkemiungsmittel der Spracherkexmungseimichtung gemaB der Figur 1. 

Die Figur 7 zeigt auf analoge Weise wie die Figur 1 dritte Spracheigenschaft- 
Erkemiungsmittel der Spracherkeimungseinrichtung gemaB der Figur 1. 
20 Die Figur 8 zeigt auf analoge Weise wie die Figur 1 vierte Spracheigenschaft- 

Erkennungsmittel d^ Spracherkennungseimichtung gemSB der Figur 1. 

Die Figur 9 zeigt auf analoge Weise wie die Figur 1 Spiach-Erkennungsmittel 
der Spracherkemiungseinriclitung gemaB der Figur 1. 

Die Figur 1 0 zeigt auf analoge schematische Weise in Form eines Diagtamms 
25 einen zeitlichen Aktivitatsverlauf mehreier Erkennungsmittel der 
Spracherkennungseinrichtung gemaB der Figur 1 . 

Die Figur 11 zeigtauf analoge Weise wie die Figur 1 ein Detail der Audio- 
Preprozessormittel gemaB der Figur 2. 

Die Figur 12 zeigt auf analoge Weise wie die Figur 1 eine Logarithmus- 

30 Filterbank-Stufe der Featurevektor-Estrahierungsmodttel gemaB der Figur 3. 

Die Figur 13 zeigt auf analogs Weise wie die Figur 1 eine Musik- 

Erkennungsstufe der ersten Spracheigenschaft-Ericennungsmittel gemaB der Figur 5. 
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Die Figur 14 zeigt auf analoge Weise wie die Figur 1 eine zweite 
Trainingsstufe der zweiten Spracheigenschaft-Erkennungsimttel gemaB der Figur 6. 

Die Figur 1 5 zeigt auf analoge Weise wie die Figur 1 eine vierte Trainingstufe 
der dritten Spracheigenschaft-Erfcennungsmittel gemSfi der Figur 7. 

Die Figur 16 zeigt auf analoge Weise wie die Figur 1 eine sechste 
Trainingsstufe der vierten Spracheigenschaft-Eikemiungsmittel gemSB der Figur 8. 



10 



15 



20 



25 



30 



In der Figur 1 ist eine Spracheiicennungseinrichtung 1 dargestellt, die zum 
Erkennen einer zu dner Sprachinformation SI koirespondierenden Textinfoimation TI 
ausgehUdet ist und die eine Konferenz-Transkriptionseinriclitung lealisiert. mit deien Hilfe 
die bei einer Konferenz aufttetende und von Konferenzteilnehmem beim Spiechen 
erzeugte Sprachinformation SI in die Tejrtinformation TT transkiibierbar ist 

Die Sprachedcennungseinrichtung 1 ist mit Hilfe eines Computers 1 A realisiert^ 
wobei in der Kgur 1 nur fBr die Spracherfcennungseiniichtung 1 lelevanten 
Funktionsgnippen dargestellt sind. Der Computer 1 A weist eine in der Figur 1 nicht 
dargestellte Recheneinheitund einen intemen Speicher IB auj^ wobei nachfolgend im 
Zusammenhang mit der Figur 1 nur auf die fur die Spracherkennungseinrichtung 1 
relevante Funktionalitat des intemen Speichers IB nSher eingegangen ist Die 
Spracheifcennungseinrichtung 1 niitzt zum Erkemien der zu der Sprachinformation SI 
koirespondierenden Textinformation TI den intemen Speicher IB. Der Computer aibeitet 
ein Computerprogramm-Produkt ab, das direkt in dea Speicher IB des ConqHitets 1 A 
geladen werden kann und das Softwarecodeabschnitte aufweist 

Die Spiachedcennungseinrichtung 1 weist Empfengsmittel 2 au^ die zum 
Enq)fengen einer Sprachinformation SI und zum Eizeugen und zum Abg*en von die 
SptacMnfoimation SI reprasentieienden Audiosignalen AS ausgebildet sind, wobei eine 
das Erkennen der Sprachinformation SI beeinflussende Bandbreile des Audiosignals AS 
von einem zum Empfengen der Sprachinformation SI verwendeten Empfangskanal bzw. 
tbertragungskanal abhangt Die Empfengsmittel 2 weisen eine erste Empfengsstufe 3 au^ 
die einen ersten Empfengskanal reaUsiert und mit deren Hilfe iiber eine Vielzahl von 
Mikrofonen 4 die Sprachinformation SI empfm^ ist, wobei jedes Mikrofon 4 einem der 
in einem Konferenzraum befindKchen Konferenzteihiehmer zugeotdnet isl, von dem die 
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Sprachginformalion SI erzeugbar ist. Den jMSktofoneii 4 ist eine in der Figur 1 nicht 
dargestellte sogenannte „Soundkarte*' des Con^uters 1 A zugeordnet, mit deren Hilfe die 
analogen Audiosignale AS in digitale Audiosignals AS umwandelbar sind. Die 
Finpfengsmittel 2 weisen weiters eine zweite Empfangsstufe 5 au:l^ die einen zweiten 

S Emp&ngskanal lealisiert und mit deien Hilfe uber erne Viel^siU von analogen 

Telefenldtungen die Sprachinformation SI emp&ngbar ist Die Emp&ngsmittel 2 weisen 
weiters eine dritte Empfengsstufe 6 aiif, die einen dxitten Enqp&ngskanal realisiert und mit 
deren Hilfe fiber eine Vielzahl von ISDN-Telefenleitungen die Sprachinfonnatlon SI 
empfengbar ist. Die Empfangsmittel 2 weisen eine vierte En:9fengsstufe 7 axxS, die einen 

10 vierten Empfangskanal realisiert und mit deren Hilfe iiber ein Computer-Datennetzwerk 
die Sprachinformation SI mit Hilfe eines sogenannte „Voice-over-IP" Datenstroms 
empfengbar ist. Die Etnpfengsmittel 2 sind weiters zum Abgeben einer digitalen 
RepiBsentation des enipfengenen Audiosignals AS in Form eines Datenstroms ausgebildel^ 
wobei die digitale ReprSsmtation des Audiosignals AS eine dem jeweiligen 

15 Enq>fengskanal entsprechende Audiosignalfomiatierung aufweist und wobei der 

Datenstrom sogenannte Audiobldcke und in den AudioblScken mthaltene sogenannte 
Audioheader aufweist, welche Audiobeader die jeweilige Audiosignalformatierung 
angeben. 

Die Spracherkennungseinrichtung 1 weist weiters Audio-Preprozessormittel 8 
20 auf, die zum Empfengen des von den Empfengsmitteln 2 abgegebenen Audiosignals AS 
ausgebildet sind. Die Audio-Preprozessormittel 8 sind weiters zum Umwandeln des 
empfengenen Audiosignals AS in ein fiir ein weiteres Verarbeiten vorgesehenes einheitlich 
fermatiertes, namlich einheitiicb PCM-fermatiertes Audiosignal PAS und zum Abgeben 
des Audiosignals PAS ausgebildet. Zu diesem Zwecke weisen die in der Figur 2 
25 dargestellten Audio-Preprozessormdttel 8 eine Kodierung-Erkennungsstufe 9, eine erste 
Datenstromsteuerstufe 10, eine Dekodierstufe 11, eine Dekodiaralgorithmus-Auswablstufe 
12, eine Dekodieralgorifhmus-Speicherstufe 13 und eine Hochpassfilterstufe 14 auf. Der 
ersten Datenstromsteuerstufe 10 ist das empfengene Audiosignal AS direkt zufiihrbar. Der 
Kodierung-Erkennungsstufe 9 sind die Audioheader zufubrbar. Die Kodierung- 
30 Erkennungsstufe 9 ist an Hand der Audioheader zum Erkennen einer moglichen Kodierung 
des durch die Audioblocke reprasentierten Audiosignals AS und bei Vorliegen einer 
Kodierung zum Abgeben einer Kodierung-Erkennungsinformation COI an die 
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Dekodieralgorithmus-AuswaMstufe 12 ausgebildet Weiters ist die Kodierung- 
Erkfinnungsstufe 9 bei Vorliegen einer Kodierung zum Abgeben einer Datenstrom- 
Beeinflussungsinfonnatioii DCSI an die ersten Datenstromsteuerstufe 10 ausgebildet so 
dass das der ersten Datenstromsteuerstufe 10 zugefuhrte Audiosignal AS an die 
5 Dekodierstufe 1 1 abgebbar ist Bei einem Nichtfeststellen einer Kodierung des 

Audiosignals AS ist von der Kodierung-]&keimungsstufe 9 mit EBlfe der Datenstrom- 
Beeinflussungsinformation DCSI die Datenstromsteuerstufe 10 deiart steuerbar, dass das 
Audiosignal AS von der Datenstromsteuerstufe 10 direkt an die Hochpassfilterstufe 14 
abgebbar ist 

10 Die Dekodieralgoiithmus-Speicherstufe 13 ist zum Speichem einer Vielzahl 

von Dekodieralgorithmen ausgebHdet Die Dekodieralgorithmus-Auswahlstufe 12 ist dutch 
ein Softwareobjekt realisiert, das in AbhangigkBit von der Kodierung- 
Erkennungsinformation COI zum Auswahlen von einem der gespeicherten 
Dekodieralgorithmen und unter Ausnutzung des gewShlten Defcodieralgorithmus zum 

15 Erzeugen der Dekodierstufe 1 1 ausgebildet Die Dekodierstufe 1 1 ist in Abhangigfceit von 
dem ausgewahlten Decodieralgorithmus zum Dekodieren des Audiosignals AS und zum 
Abgeben eines hodierungsfieien Audiosignals AS an die Hochpassfilterstufe 14 
ausgebildet Die Hochpassfilterstufe 14 ist zum Hochpassfiltem des Audiosignals AS 
ausgebildet, so dass stiJrende niederfi«quente Anteile des Audiosignals AS entfembar sind, 

20 welche niederfirequenten Anteile erne weitere Verarbeitung des Audiosignals AS nachteiUg 
beeinfiussen konnen. 

Die Audio-Prepiozessonnittel 8 weisen weiters eine PCM-Format- 
Umwandlungsparameter-Erzeugungsstufe 15, die zum Enq>fengen des hochpassgefilterten 
Audiosignals AS und zum Veraibeiten von einer zu dem hoclq»assgefil1erten Audiosign^ 

25 AS gehdrenden PCM-Format-Information PCMF ausg^ildet ist, wobei die PCM-Format- 
Infermalion PCMF von dem jeweiligen Audioheader reprasentiert ist Die PCM-Foimat- 
Umwandlungspaiameter-Etzeugungsstufe 15 ist weiters unter Ausnutzung der PCM- 
Format-Information PCMF und unter Ausnutzung einer in der Figur 2 nicht dargesteUten 
definierbaren PCM-Format-Konfigurationsinformation PCMC, die das zu eizeugenden 

30 einheitliche PCM-Format des Audiosignals PAS angibt, zum Erzeugen und zum Abgeben 
von PCM-Fonnat-Umwandlungspaiametem PCP ausgd>ildet 

Die Audio-Preprozessormittel 8 weisen weiters eine Umwandlungsstufen- 
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Erzeugungsstufe 16au^diediircheinSoftwareobjektrealisiertistunddiez^ 
und zum Verarbeiten der PCM-Format-Umwandlungsparameter PCP und unter 
Ausnutzung dieser Parameter PCP zum Erzeugen einer PCM-Format-Umwandlungsstufe 
17 ausgebildet sind. Die PCM-Format-Umwandlungsstufe 17 ist zum Empfengen des 
5 hochpassgefilterten Audiosignals AS und zum Umwandeln des hochpassgefilterten 
Audiosignals AS in das Audiosignal PAS und zum Abgeben des Audiosignals PAS von 
den Audio-Pieprozessonnitteln 8 ausgebildet. Die PCM-Format-Umwandlungsstufe 17 
weist~in der Figur 2 nicht daigestellte - eine Vielzahl von in Abhangigkeit von denPCM- 
Fonnat-Umwandlungspaiametem PCP erzeugbacen Umwandlungsstufen zum Realisieren 

10 derPCM-Format-Um>¥andlungsstufe 17. 

Die in der Figur 1 1 im Detail dargestellte PCM-Fonnat- 
Umwandlungsparameter-Erzeugungsstufe 15 weist eingangsseitig eine Parser-Stufe 15A 
auf, die unter Ausnutzung der PCM-Format-Konfigurationsinfontnation PCMC und der 
PCM-Fonnat-Information PCMF zum Bestimmen der Anzahl der Umwandlungsstufen der 

1 5 Fonnat-Umwandlungsstufen 17 und der ihnen individuell zugeordneten Eingang/Ausgang- 
PCM-Foimate ausgebildet ist, was duich eine von ihr abgebbare Objekt- 
Spezifikationsinformation OSI leprasentiert ist Dabei definiert die PCM-Fonnat- 
Infomiation PCNfF ein Eingang-Audiosignal^^ 

Konfigurationsinformation PCMC ein Ausgang-Audiosignalformat der PCM-Foimat- 
20 Umwandlungsparameter-Erzeugungsstufe 15. Die PCM-Fomiat-Umwandlungsparameter- 
Erzeugungsstufe 15 weist weiters eiue Filterplanerstufe 15B auf, die unter Ausnutzung der 
Objekt-SpezifOkationsinformation OSI zum Planen weiterer Eigenschaffcen jeder der 
Umwandlungsstufen ausgebildet ist, welcbe weiteren Eigenschaften und die Objekt- 
Spezifikationsinformation OSI durcb die von ihr erzeugbare und abgebbare PCM-Format- 
25 Umwandlungsparameter PCP reprasentiert sind. 

Die in der Figur 1 dargestellte Sprachetkennungseinrichtung 1 weist weiters 
Empfangskanal-^kemiungsmittel 18 au:^ die zum Emp&ngen des von den Audio- 
Preprozessormitteln 8 vorverarbeiteten Audiosignals PAS und zum Erkennen des jeweils 
zum Empfangen der Sprachinformation SI verwendeten Empfengskanals und zum 
30 Erzeugen einer den erkannten Empfengskanal reprasentierenden Kanalangabe-Infonnation 
cm und zum Abgeben der Kanalangabe-Infonnation CHI ausgebildet sind. 

Die Spracherkennungseinrichtung 1 weist weiters Featurevektor- 
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ExtraWeimgsimttel 19 auf, die ebenfells wie die Empfengsk^^ 

Empfengen des durch die Audio-Preprozessonnittel 8 vorveraibeiteten Audiosignals PAS 
und der Kanalangabe-Infoimation CHE und unter Beriicksichtigung der Katwlangabe- 
mfoimation CHI zum Bzeugen und zum Abgeben von sogenannten Featurevektoren FV 
ausgebUdet sind, wcaauf an geeigneter SteUe im Zusammenhang mit der Figur 3 noch im 
Detail eingegang^ witd. 

Die Sprachericennungseiniichtung 1 weist weiters erste Spracheigenschaft- 
Edcennungsmitlel 20 au^ die zum Empfengen der die Sprachinformation SI 
reprasentierenden Featurevektoren FV und zum Empfangen der Kanalangabe-Infoimation 
cm ausgebildet sind. Die ersten Spracheigenschaft-Ericennungsmittel 20 sind weiteis unter 
Ausnutzung der Featurevektoren FV und unter fortwahiender Berucksichtigung der 
Kanalangabe-Infoimation CHI zum Erkemien einer ecsten Spracheigenschaft - nSmKch 
einer akustischen Segmentierung - und zum Eizeugen und zum Abgeben einer die erkannte 
akustische Segmentierung reprasentierenden ersten Eigenschaflsinfomiation - namHch 
15 einer Segmentierung-Infonnation ASI - ausgebildet. 

Die Sprachedcennungseinrichtung 1 weistweiters zweite Spiacheigenschaft- 
Erkennungsmittel 21 au^ die zum Empfengen der die Sprachinfoimation SI 
repiasentierenden Featurevektoren FV und zum Empfangen der Kanalangabe-Infonnation 
cm und zum Empfengen der Segmentierung-Infoimation ASI ausgebUdet sind. Die 
zweiten Spracheigenschaft-Erkennungsmittel 21 sind weiters unter Ausnutzung der • 
Featurevektoren FV und unter fortwaiiender BeriickBichtigung der Kanalangab^ 
Information Cffl und der Segmentiemng-Infi»mation ASI zum Etkennen einer zweiten 
Sprachetgenschaft - nSmKch um welche Sprache es sich handelt, also beispielsweise 
Englisch Oder Fianzosisch oder Spanisch - und zum Erzeugen und zum Abgeben einer die 

25 erl^te Sprache reprasentierenden zwdtenKgenschaftsinfoimation- namHch em^ 
Spiache-Ihfbimation LI - ausgebildet. . 

Die Spracherkennungseinrichtung 1 weist weiteis dritte Spracheigenschaft- 

Ericennungsmittel 22 auf, die zum Empfengen der die Sprachinformation SI 

repiasentierenden Featurevektoren FV, der Kanalangabe-ftrfoimation CBI, der 

Segmentiemng-Information ASI und der Sprache-Iufimnation LI ausgd>ildet sind. Die 

dritten Spracheigenschaft-Erfcennungsmittel 22 sind weiters unter Ausnutzung der 

Featurevektoren FV und unler fiirtwahiender BerOcksichtigung der Infonnationen CHI, 
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ASI und LI zum Erkeimeii einer dritten Spracheigenschaft - namlicli einer Sptechergnippe - 
und zum Etzeugen und zum Abgeben einer die erkannte Sptechergruqppe reprasentierenden 
dritten Eigenschaftsinformation - namlich einer Sprechergnq)pe-Information SGI - 
ausgebildet 

S Die Spracherkennungseinrichtung 1 weist welters vierte Spracheig^cliafi- 

Erkennungsmittel 23 au^ die zum Emp&ngen der die Sprachinformaticm SI 
reprasentierenden Featurevektoren FV und zum BmpSangen der Kanalangabe-brformation 
CHI, der Segmentierung-Information ASI, der Sprache-Information LI und der 
Sprechergrappe-Infonnation SGI ausgebildet sind Die vierten Spracheigenschaft- 

10 Erkennungsmittel 23 sind welters unter Ausnutzung der Featurevektoren FV und unter 
fortwahrender Benicksichtigung der Informationen CHI, ASI, LI und SGI zum Erkranen 
einer vierten Spiacheigenscliaft - namlicli eines Kontexts - und zum Erzeugen und zum 
Abgeben einer den erkaimten Kontext reprSsentierenden vierten Eigenschaftsinformation - 
namlich einer Kontext-Information CI - ausgebildet. 

IS Die Spracherkennungseinrichtung 1 weist weiters Sprach-Erkennungsmitiel 24 

aul^ die unter fortwahrender Benicksichtigung der Kanalangabe-Infonnation CHI, der 
ersten Eigenschaftsinformation ASI, der zweiten Eigenschaftsinformation LI, der dritten 
Eigenschaftsinformation SGI und der vierten Eigenschaftsinformation CI zum Erkennen 
der Textinformation TI unter Ausnutzung der die Sprachinformation SI reprasentierenden 

20 Featurevektoren FV und zum Abgeben der Textinformation TI ausgebildet sind 
Die Spracherkennungseinrichtung 1 weist weiters Textinformation- 
Speichermittel 25 und Textinformation-Bearbeltungsmittel 26 und Textinformation- 
Ausgabemittel 27 auf, wobei die Mittel 25 und 27 zum Enqpfangen der Textinformation TI 
von den Sprach-Erkemiungsmitteln 24 her ausgebildet sind. Die Textinformation- 

25 Speichermittel 25 sind zum Spelchem der Textinformation TI und zum Bereltstellen der 
Textinformation TI ffir ein weiteres Verarbeiten mit Hilfe der Mittel 26 und 27 ausgebildet. 

Die Textinformation-Bearbeitungsmittel 26 sind zum Zugreifen auf die in den 
Textinformation-Spelchermlttehi 25 gespeicherte Textinformation TI und zum Bearbeiten 
der durch die Sprach-Erkennungsmittel 24 automatisch aus der Sprachinformation SI 

30 eizeugbaren T^tinformation TI ausgebildet Zu diesem Zweck weisen die 

Textinformation-Bearbeitungsmittel 26 in der Figur 1 nicht dargestellte Anzeige/Eingabe- 
Mittel BxxE, die es einem Benutzer — beispielswelse einer Korrektionistin — erlauben, die 
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Textinfannation TI zu bearbeiten, so dass bedingt durch eine undeutliche oder fehlerhafte 
Aussprache eines Konfeienzteilnehmers oder durch Probleme bei der Obertragung des 
Audiosignals AS bei dem automatischen Tianskribieren venirsachte UnHarheiten oder 
Fehler in der Textinfonnation H auf manuelle Wdse bereinigbar sind. 

Die Textinfonnation-Ausgabeinittel 27 srind zum Ausgeben der in den 
Textinfonnation-Speichemiittehi 25 gespeicherten imd gegebenenfells dutch einen 
Bemitzer beaibeiteten TextinformatiQn IT ausgebildet, wobei die Textmformation- 
Ausgabemittel 27 in der Figur 1 nicht dargesteUte Schnittstellemnittel zum Abgeben der 
Textinfonnation TI in Form eines digitalen Datenstroms an ein Computemetzwerk, an eine 
Druckvorrichtung und an eine Anzeigevorrichtung aufweisen. 

Im Nachfolgenden soil ein zeitUches Zusammenwirfcen der EdcennungsmittBl 
18, 20, 21, 22, 23 und 24 an Hand eines zeitUchen Aktivitatsverlaufe der Edcennungsmittel 
18, 20, 21, 22, 23 und 24 mit Hilfe der Figur 10 erlautert werden. Zu diesem Zweck sind in 
der Figur 10 die einzehien Aktivitaten in Form eines Balkendiagramms daigestellt, wobei 
ein erster Aktivitatsbalken 28 die Aktivitat der Empfengskanal-Erkemiungsmittel 1 8 
reptSsentiert und wobei ein zweiter Aktivitatsbalken 29 die Aktivitat der ersten 
Spracheigenschaft-Erkennungsmittel 20 reprSsentiert und wobei ein dritter 
Aktivitatsbalfcen 30 die Aktivitat der zweiten Spracheigenschaft-Erkennungsmittel 21 
repiasentiert und wobei ein vierter Aktivitatsbalken 3 1 die Aktivitat der dritlen 
Spiacheigenschaft-Erkennungsmittel 22 repiasentiert und wobei ein fOnfter - 
Aktivitatsbalken 32 die Aktivitat der vierten Spracheigenschaft-Eikfinnungsmittel 23 
repiasentiert und wobei ein sechster Aktivitatsbalken 33 die Aktivilfit der Sprach- 
Erkennungsmittel 24 leprasentiert 

Der erste Aktivitatsbalken 28 erstreckt sich von einem eisten Startzei^unkt 
TIB bis zu etnem ersten Endzd^punkt TIE. Der zweite Aktivitatsbalken 29 erstreckt sich 
von einem zweiten Startzdtpunkt T2B bis zu einem zweiten Endzei^unkt T2E. Der dritte 
Aktivitatsbalken 30 erstreckt sich von einem dritten Startzeilpunkt T3B bis zu einem 
dritten Endzeitpunkt T3E. Der vierte Aktivitatsbalken 31 erstreckt sich von einem vierten 
Startzeitpunkt T4B bis zu einem vierten Endzeitpunkt T4E. Der fiinfle Aktivitatsbalkm 32 
erstreckt sich von einem funflen Startzei^unkt T5B Ws zu einem funften Endzei^mnkt 
T5E. Der sechste Aktivitatsbalken 33 erstreckt sich von einem sechsten Startzeitpunkt T6B 
bis zu einem sechsten Endzeitpunkt T6E. Dabd wird wShrend der AktivitSt des jeweiligen 
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Erketinungsmittels 18, 20, 21, 22, 23 oder 24 von dem jeweiligen Erkennungsmittel 18, 20, 
21, 22, 23 Oder 24 die gesamte Sprachinformation SI vollstandig verarbeitet, wobei jedes 
der Erkennungsmittel 18, 20, 21, 22, 23 und 24 das Verarbeiten der Sprachinformation SI 
beginnend am An£mg der Sprachinformation SI zu dem jeweiligen ihm zugeordneten 

5 Startzeilpuokt TIB, T2B, T3B, T4B, TSB bzw. T6B beginnt und zu dem jeweili^n ihm 
zugeordneten Endzeilpunkt TIE, T2E, T3E, T4E, T5E bzw. T6E beendet tJblicherweise 
unterscheiden sich die zwischen den Startzeilpunkten TIB, T2B, TSB, T4B, TSB bzw. 
T6B und den Endzeitpunkten TIE, T2E, T3E, T4E, T5E bzw. T6E vorliegenden 
Gesamtverarbeitungszeitspannen praktisch nicht voneinander. Es konnen jedoch 

10 Unterschiede bei den individuellm Gesamtverarbeitungszeitspannen auftreten, wenn die 
jeweiligen Verarbeitungsgeschwindigkeiten der Mittel 18, 20, 21, 22, 23 und 24 
voneinander abweichen, was beispielsweise daim zum Tragen komml^ wenn die 
Sprachinformation SI „ofF-line-maBig^ verCugbar gemacht wird. Dabei ist unter dem 
BegrifF„off-line-maBigf ' beispielsweise eine vorangehende Au&eichnung der 

1 S Sprachinformation SI auf einem Au&eichnungstrager zu ver stehen, der nachf olgend daran 
der Spracherkemiungseinrichtung 1 zuganglich gemacht winL 

Welters sind in dem Diagramm zu den jeweiligen Erkemmngsmitteln 1 8, 20, 
21, 22, 23 und 24 korrespondierende Startverzogerungen dl bis d6 dargestellt, wobei im 
vorliegenden Fall dl=0 ist, weil der Nullpirnkt der Zeitachse T zeitlich zusammenfallend 

20 xmt dem ersten Startzeitpunkt TIB der Empl^gskanal-Erkennungsmittel 18 gewahlt 
wurde. Es sei jedoch erwahnt, dass dieser Nullpunkt auch zu einem anderen Zeitpunkt 
gewahlt werden kann, wodurch dl ungleich Null wird 

Welters sind in dem Diagramm zu den jeweiligen Brkennungsmittehi 18, 20, 
21, 22, 23 und 24 korrespondierende anSngliche Verarbeitungsverzogerungen Dl bis D6 

25 eingetmgen, die durch das jeweilige Erkennungsmittel 1 8, 20, 21, 22, 23 und 24 bei einem 
erstmaligen Erzeug^ der jeweiligen Information CHI, ASI, LI, SGI, CI bzw. TI selbst 
verursacht sind. Mafhematisch lasst sich der Zusammenhang zwischen di und Di wie folgt 
zusammen&ssen, wobei per Definition d^^O und jDq = 0 ist: 

= + A-i ' = daraus folgend: 

1-1 

30 ^,=I^A + ^o f = l-.-6. 

Die Empfangskanal-Erkennungsmittel 18 beginnen zu dem ersten 
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Startzei^unkt TIB mit dem Erkeimen des jeweils zum Empfengen der Sprachinfonnatioii 
SI verwendeten Empfengskanals 3, 5, 6 oder 7. Dabd erfolgt das Ericennen des jeweiHgem 
Emp&ngskanals 3, 5, 6 oder 7 wahrend einer ersten anfanglichen 
VetarbeitungsverzSgenmg Dl fiir einen Tdlbereich eines ersten Teils der 
5 Sprachinfonnation SI, welcher erste Teil wahrend der VerarbeitungsveraSgerung Dl von 
den Audio-PreprozesscMmitteln 8 vorveraibeitet an die Empfengskanal-Erkennungsniittel 
1 8 abgebbar ist und welcher erste TeU wShrend der VerarbeitungsvetzSgerung Dl von den 
Empfengskanal-Eikennungsmitteln 18 zum eistmaUgen Erkennen des verwendeten 
]&iipfangskanals 3, 5, 6 oder 7 ausnutzbar isL Im vorliegenden Fall betragt die 
10 Verarbeitungsverzogerung Dl etwa einhundert (100) Millisekunden und der erste Teil der 
Sprachinfonnation SI umfesst etwa zehn (10) sogenannte Frames, wobei jeder Frame die 
Sprachinfonnation SI wahrend einer Zeitdauer von etwa zehn Millisekunden in der 
Audiosignalebene repiasentiert Die Empfimgskanal-Erkennungsmittel 18 etzeugen am 
Ende der Verarbeitungsvetzogenmg Dl eistmalig die den erkannten Rtnrfimg.ir,^ni 3^ 5^ g 
15 Oder 7 rqpiSsentierBndeKanalangabeinfotmationOT fur einen ersten Fram 

Teils der Sprachinfonnation SI und geben diese Kanalangabe-Iofonnation C3HI an die vier 
Spracheigenschaft-Erkennungsmittel 20 bis 23 und an die Sprach-Erkennungsmittel 24 ab. 
In dem Diagramm ist dies mit EMfe des Pfeilbuschels 34 angedeutet 

Im weiteren Zeitverlauf bis hin zu dem Endzeitpunkt TIE eizeugen bzw. 
20 steDen die Empfengskanal-Erkennungsmittel 1 8 fortwahrend eine ftameweise aktuaUsierte 
Kanalangabe-Infonnation CHI fiir die vier Spracheigenschaft-Erkennungsmittel 20 bis 23 
und die Sptach-Etkennungsmittel 24 zur Verfugung, so dass die Kanalangabe-Lrfomiation 
CHI fortwahrend ftameweise von den Erkennungsmittehi 20 bis 24 berficksichtigbar ist 
Dabei wird beginnend mit dem zweiten Frame der Sprachinformation SI jeweils ein 
25 weiterer Teil der Sprachinfonnation SI veiarbeitet, der eine den UmstSnden angepasste 
AiizaM von Frames aufweist, und eine jeweils fur den ersten Frame, also fiir den ersten 
Teilbereich des jeweiHgen Teils der Sprachinfonnation SI gultige Kanalangabe- 
Infonnation cm erzeugt bzw. bereitgestellt Dabei unterscheiden sich benachbarte Teile 
der Sprachinfonnation SI, beispielsweise der erste Teil und ein zweiter Teil, dahingehend, 
dass der zweite Teil als einen letzten Frame einen an den ersten Teil angrenzenden Frame 
aufweist, der jedoch nicht in dem ersten TeU enthalten ist, und dass der erste Frame des 
zweiten Teils drach einen an den ersten Frame des ersten Teils anscUiei3enden zweiten 
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Frame des ersten Teils gebildet ist. 

Es sei an dieser Stelle erwahnt, dass nach dem erstmaligen Erzeugen bei dem 
weiteren, also fortwahienden Erzeugen der Kanalangabe-Infoimation CHI in Abhangigkeit 
von dem Auflxeten des Audiosignals AS bei einem der Emp&ngskanale 3, S, 6 und 7 aucb 
5 andere Zeitspannen als die erste anSngliche Verarbeitungsverz5gerung Dl auftceten 
konnenunddemgemaS auch eine andere Anzald von Frames zum Erzeugen der 
Kanalan^e-Information CHI fiir den eisten Frame der jeweiKgen Anzahl von Frames, 
also ffir den ersten Frame der weiteren Teile der Spiachinfonnation SI beriicksichtigbar ist 
Es sei an dieser Stelle weiters erwahnt, dass sich benachbarte Teile der Spiachinfoimation 

10 SI auch um mehr als zwei Frames unterscheiden konnen. Weiters sei erwahnt, dass der 
Teilbereich eines Teils der Sprachinformation SI, fur den die Kanalangabe-Ioformation 
CHI erzeugt wird, auch mehrere Frames um&ssen kann, wobei diese mehrcren Frames 
bevorzugt am An&ng eines Teils der Sprachinformation SI lokalisiert sind. Weiters sei 
erwahnt, dass der jeweilige Teilbereich eines Teils der Sprachinformation SI, fur den die 

1 5 Kanalangabe-Ihformation CHI erzeugt wird, auch die Gesamtanzahl der Fram^ des Teils 
der Sprachinformation SI aufweisen l^nn, so dass der Teilbereich identisch zu dem Tell 
ist. Es sei weiters erwahnt, dass der jeweilige Teilbereich eines Teils der 
Sprachinformation SI, fvir den die Kanalangabe-Information CHI erzeugt wird, nicht 
unbedingt der erste Frame, sondem auch der zweite Frame oder jeder weitere Frame des 

20 Teils der Sprachinformation SI sein kann. Dabei ist wichtig zu verstehen, dass zu einem 
Frame genau eine einzige Kanalangabe-Information CHI zugeordnet ist. 

Vorwegnehmend sei an dieser Stelle fes^halten, dass die vorstehend 
gemachten Angaben hinsichflich eines Teils des Sprachsignals SI und hinsichflich des 
Teilbereichs des jeweiligen Teils der Sprachinformation SI, fiir den die jeweilige 

25 Information ASI, LI, SGI, CI und Tl erzeugt wird, auch bei den nachfolgend beschriebenen 
Mitteln 20, 21, 22, 23 und 24 GiUtigkeit haben. 

Beginnend zu dem Zeilpunkt T2B beginnen die ersten Spracheigenschaft- 
Erkennungsmittel 20 um die Startverzogerung d2 zeitverzogert unter Ausnutzung der den 
ersten Teil der Sprachinformation SI reprasentierenden Featurevektoren FV und unter 

30 Beriicksichtigung der zu jedem Frame des ersten Teils der Sprachinformation SI jeweils 
zugeordneten Kanalangabe-brformation CHI mit dem erstmaligen Erkennen der 
akustischen Segmentierung fOr den ersten Frame, also fiir den ersten Teilbereich des ersten 



• 

PHAT020070EP-P 



-17- 



Teils der Sprachinformation SI. Die Startverzogerung d2 entepricht dabei der dutch die 
Empfangskanal-Erkennuiigsmittel 18 verursachten aofanglichen Veiarbeituiigsverzogerung 
Dl . DemgemaB sind die ersten Spraclieigenschaft-Erkeimungsmittel 20 zeitverzogert urn 
mindestens die Zeitspanne, die von den Empfangskanal-Erkenniingsmitteln 1 8 zum 
5 Erzeugen der Kanalangabe-lnfonnation CHI fiir den ersten Frame bendtigt wird, zum 
erstmaligen Erkemien der akustischen Segmentierung fur den ersten Frame ausgebildet 
Auch die ersten Spracheigenschaft-Erkemiungsmittel 20 weisen ihrerseits eine zweite 
an&igliche Veratbeitungsverzogerung D2 au:^ wobei nach Verstreichen dieser 
Verarbeitungsverzogerung D2 erstmals die Segmentienmg-Information ASI fiir den ersten 

10 Frame des ersten Teils der Sprachinformation SI erzeugbar imd an die arkemiungsmittel 21 
bis 24 abgebbar ist, was stellvertretend fijr ein weiteres in der Figur 1 1 nicht dargestelltes 
Pfeilbuschel durch einen einzigen Pfeil 35 angedeutet ist 

Nachfolgend an die VerafbeitungsverzSgerung D2 wird von den ersten 
Spracheigenschaft-Erkemimigsmittehi 20 unter fortwahrender Berucksichtigung der zu 

15 jedem Frame des jeweilig^ Teils der Sprachinformation SI kortespondiererenden 
Kanalangabe-lnfonnation CHI fortwahrend fur die nach dem ersten Frame der 
Sprachinformation SI aufbretenden weiteren Frames, namlich fur jeden ersten Frame des 
jeweiUgen Teils der Sprachinformation SI, eine aktualisierte Segmentienmg-Information 
ASI erzeugt bzw. bereitgestellt. 

20 BeginnendzudemZeitpunktTSBbeginnendiezweitenSpracheigenschaft- 
Erkennungsmittel 21 um die StartveizSgerung d3 zeitverzdgert unter Ausnutzung der den 
ersten Teil der Sprachinformation SI reprasentierenden Featurevektoren FV imd unter 
Berucksichtigung der zu jedem Frame des ersten Teils der Sprachinformation SI jeweils 
zugeordnete Kanalangabe-^ormation CHI und der Segmentierung-Ihformation ASI mit 

25 dem erstmaligen Efkemien der Sprache fiir den ersten Frame, also fur den ersten 

Teilbereich des ersten Teils der Sprachinformation SI. Die Startverzogerung d3 entspricht 
dabei der durch die Empfengskanal-Erkennungsmitteln 1 8 und die ersten 
Spracheigenschaft-Brkennungsmittel 20 verursachten Summe der anJSnglichen 
Verarbeitungsverzogerungen Dl und D2. DemgemaB sind die zweiten Spracheigenschafl- 

3 0 Eikemiungsmittel 20 zeitverzogert um mindestens die Zeitspanne, die von den 

Emp&ngskanal-&kemiungsmitteln 18 und den Spracheigenschaft-Erkemiungsinitteln 20 
zum erstmaligen Erzeugen der Kanalangabe-Information CHI und der Segmentierung- 
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Infonnation ASI fur den ersten Frame benotigt werden, zum erstmaligen Erkemien der 
Sprache fur den ersten Frame ausgebildet Auch die zweiten Spracheig^ischaft- 
Erkennungsmittel 21 weisen ihrerseits eine dritte anSngliche Verarbeitungsverzogerung 
D3 auf, wobei nach Verstreichen dieser Veiarbeitungsveizdgerung D3 eistmals die 
5 Sprache-InfoimatiQn ASI fur den ersten Frame der Sjirachinformation SI an die 

Erkennungsmittel 22 bis 24 eizeug^ar und abgebbar ist, was stellvertretend fur ein weiteres 
in der Figur 1 1 niclit daigestelltes Pfeilbuschel durch den einzigen Pfeil 3 6 angedeutet ist 

Nachfolgend an die Verarbeitungsverzogerung D3 wird von den zweiten 
Spracheigenschaft-Erkennungsmittehi 21 unter fortwahiender Berucksichtigung der zu 

10 jedem Frame des jeweiligen Teils der Sprachinformation SI korrespondierenden 
Infonnationen CHI und ASI fortwahrend fixr die nach dem ersten Fiame der 
Sprachinformation SI auflretenden weiteren Frames, nSmlich fiir jeden ersten Frame des 
jeweiligen Teils der Sprachinformation SI, eine aktualisierte Spiache-Information U 
erzeugt bzw. bereitgestellt. 

IS Beginnend zu dem Zeitpunkt T4B begionen die diitten Spracheigenschafi- 

Erkennungsmittel 22 um die Startverzogerung d4 zdtverzSgert unter Ausnutzung der den 
ersten Teil der Sprachinformation SI reprasentierenden Featurevektoren FV imd unter 
Beriicksichtigung der zu jedem Frame des ersten Teils der Sprachinformation SI jeweils 
zugeordneten Kanalangabe-Information CHI und Segmentierung-Infonnation ASI und 

20 Sprache^Information LI mit dem erstmaligen Erkennen der Spiechezgruppe fiir den ersten 
Frame, also fur den ersten Teilbereich des ersten Teils der Sprachinformation SI. Die 
Startverzogerung d4 entspricht dabei der durch die EmpjGangskanal-Erkennungsmittel 18 
und die ersten Spracheigenschaft-Brkennungsmittel 20 und die zweiten Spracheigenschaft- 
Erkennungsmittel 21 verursachten Summe der anSnglichen Verarbeitungsverzogerungen 

25 Dl und D2 und D3, DemgemaB sind die dritten Spracheigenschaft-Erkeimungsmittel 22 
zeitverzogert um mindestens die Zeitspanne, die von den Mitteln 1 8, 20 und 21 zum 
erstmaligen Erzeugen der Kanalangabe-Information CHI und der Segmentierung- 
Information ASI und der Sprache-Information LI fiir den erst^ Frame benotigt werden, 
zum erstmaligen Erkennen der Sprechergruppe fur den ersten Frame ausgebildet. Auch die 

30 dritten Spracheig^chaft-Erkennungsmittel 22 weisen ihrerseits erne vierte an:Sngliche 
Verarbeitungsverzogerung D4 au^ wobd nach Verstreichen dieser 
VerarbeitungsverzSgerung D4 erstmals die Sprechergroppe-Iofonnation SGI fur den ersten 
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Frame m die Erketmungsimttel 23 und 24 eizeugbar und abgebbar ist, was stellvertretend 
ffir ein weiteres in der Figur 1 1 nicht dargesteUtes Pfeilbiischel dutch einen einzigen Pfeil 
37 angedeutet ist. 

Nachfolgend an die Veraibeitungsverz5gerung D4 wird von den dritten 
5 Spiacheigenschaft-Eikeimungsmitteln22unterfortwahr^ 

jedem Frame des jeweiHgen Teils der Spracbinfomialion SI fconespondierenden 
Infoimation CHI, ASI und LI fortwahrend fur die nach dem erslen Frame der 
SpiachinformatiQn SI aufiretenden weiteren Frames, ngmlich ffir jeden ersten Frame des 
jeweiligen Teils der SprachinfiMmation SI, eine aktualisierte Sprecheigruppe-Information 
10 SGI erzeugt bzw. bereitgestellt. 

Beginnend zu dem Zeitpunkt T5B beginnen die vierten Spracheigenschaft- 
Erkennungsmittel 23 urn die Startverzogerung d5 z«itverz5gert unler Ausnutzung der den 
ersten Teil der Sprachinf otmation SI r^rasentierenden Featurevektoren FV und unter 
Berucksichtigung der zu jedem Frame des ersten Teils der Sprachinfimnation SI jeweils 
zugeotdneten Kanalangabe-Infomiation CHI und Segmentierung-lnf<«matiQn ASI und 
Sprache-Idfoimation LI und Sprecheigrappe-fiiformation SGI mit dem erstmaHgen 
fokennen des Konlexts ffir den ersten Frame, also ffir den ersten Teilbereich des ersten 
Teils der SprachinfiMmation SL Die Startveizdgerung d5 entspricht dabei der durch die 
^Bttel 18, 20, 21 und 22 verursachten Summe der anfangUchen 
Verarbeitungsverzogerungen Dl und D2 und D3 und D4. DemgemaB sind die vierten 
Spiacheigenschaft-Erkennungsmittel 23 zeitverzSgert urn mindestens die Zeitspannen, die 
von den Mittehi 1 8, 20, 2 1 und 22 zum erstmaligen Erzeugen der Lifomiationen CHI, ASI, 
LI und SGI ffir den ersten Frame benotigt werden, zum erstmaligen Ericemien des Kontexte 
ffir den ersten Frame ausgebildet Auch die vierten Spracheigenschaft-Erkeimungsmittel 23 
weisen ihreiseits eine ffinfte anffingUche VerarbeitungsverzSgenmg D5 au^ wobei nach 
Verstrdchen dieser Verarbeitungsveiz6gerung D5 erstmals die Kontext-Information CI ffir 
den ersten Frame der SprachinfiMmation SI an die Sprach-Erkennungsmittel 24 erzeugbar 
und abgebbar ist, was durch einen Pfeil 38 angedeutet ist 

Nachfolgend an die Verarbeitungsverzogerung D5 wird von den vierten 
30 Spiachdgenschaft-ErkennungsmitteM23unterfi)rtwaMenderBeraclcsichtigu^ 
jedem Frame des jeweiligen Teils der Sprachinformation SI kortespondierenden 
Liformationen OB, ASI, LI und SGI fortwahrend ffir die na«ih dem ersten Frame der 
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Sprachinformation SI auftretenden weiteren Frames, Bamlich fur jeden ersten Frame des 
jeweiligen Teils der Sprachinformation SI, eine aktualisierte Kontext-Information CI 
erzeugt bzw. bereitgestellt 

Begmnend zu dem Zeitpunkt T6B begiimeii die Sprach-Eikenmmgsmittel 24 

S um die Startverzogerung d6 zeitverzogert unter Ausnutzung der den ersten Teil der 

Spcachinfonnation SI repiasentierenden Featuievektoren FV imd unter Berucksichtigung 
der zu jedem Frame des ersten Teils der Sprachinformation SI jeweils zugeordneten 
Kanalangabe-Information CHI und Segmentierung-Information ASI und Sprache- 
Informationen LI und Sprechergmppe-Information SGI und Kontext-fioformation CI mit 

10 dem erstmaligen Erkennen der Textinformation TI fiir den ersten Frame, also fiir den ersten 
Teilbereich des ersten Teils der Sprachinformation SL Die Startverzogerung d6 entspricht 
dabei der durch die Mittel 18, 20, 21, 22 und 23 verursachten Summe der anSnglichen 
Veratbeitungsverzdgerungen Dl und D2 und D3 und D4 und DS. DemgemaB sind die 
Erkennungsnoittel 24 zeitverzogert um mindestens die Zeitspannen, die von den Mittehi 1 8, 

IS 20, 21, 22 und 23 zum erstmaligen Erzeugen der Informationen CHI, ASl^ LI, SGI und CI 
fur den ersten Frame benStigt werden, zum erstmaligen l&kennen der Textinformation TI 
fiir den ersten Frame der Sprachinformation SI ausgebUdet Auch die Sprach- 
Erkennungsmittel 24 weisen ihrerseits eine aniangliche Verarbeitungsverzogerung D6 au^ 
wobei nach dem Verstreichen dieser Verarbeitungsverzogerung D6 erstmals die 

20 Textinformation TI fur den ersten Frame der Sprachinformation SI an die Mittel 25, 26 
bzw. 27 erzeugbar und abgebbar ist 

Nachfolgend an die Verarbeitungsverzo^rung D6 wird von den Sprach- 
Erkennungsmittehi 24 unter fortwahrender Berucksichtigung der zu jedem Frame des 
jeweiligen Teils der Sprachixrformation SI korrespondierenden Informationen CHI, ASI, LI, 

25 SGI und d fortwahrend fax die nach dem ersten Frame der Sprachinformation SI 

aufiretendCTi weiteren Frames, namlich fur jeden ersten Frame des jeweiligen Teils der 
Sprachinformation SI, eine aktualisierte Textinformation TI erzeugt bzw. bereitgestellt. 

Zusammen&ssend sei im Zusammenhang mit den zeitlichen Aktivitaten 
erwahnt, dass immer dann ein Frame von einer der Erkennungsstufen 20, 21, 22, 23 oder 

30 24 verarbeitet wird, weim alle von der jeweiligen Erkennungsstufe 20, 21, 22, 23 oder 24 
zum Verarbeilm des jeweiligen Frames bendtigten Informationen CHI, ASI, LI, SGI bzw. 
CI bei der jeweiligen l&kennungsstufe 20, 21, 22, 23 oder 24 verfiigbar sind 



PHAT020070^P .21- 

GemaB den voistehenden Erlauterungen ist die Spracherkermungseimichtung 1 
zum Duichfiairen eines Spracherkennungsverfehrens zum Ericeimen der zu der 
Sprachinfoimation SI konespondierenden Textinfonnation TI ausgebildet, wobei die 
Sprachinfoimation SI hinsichtUch ihier Spracheigenschaften. namUch der akustischen 

5 Segmentienmg,derSpiache,derSprecher<hiippeimddesKontextsch^^ 

Das Sprachedcennungsverfehien weist die nachfolgend angefOhrten Verfehiensschritte au^ 
nSmKch Edceimen der akustischen Segmentierung unter Ausnutzung der 
Sprachinfimnation SI und Eizeugen der die etkannte akustische Segmentierung 
reprSsentierenden Segmentienmg-Infoimation ASI und Erkennen der Sprache unter 

0 Ausnutzung der Spiachinformation SI und Erzeugen der die erkannte Sprache 

reprasentierenden Sprache-Information LI und Erkennen der Sprecher-Gxuppe unter 
Ausnutzung der Sprachinformation SI und Erzeugen der die erkannte Sprecher-Gn^ 
reprasentierenden Sprechergnq)pe-Infonnation SGI und Eikennen des Kontexts unler 
Ausnutzung der Sptachinfonnatian SI und Erzeugen der den erkannten Kontext 

5 repiasentieiendenK(mtext.Ihfennati<^^ 

SI korrespcmdierenden Textinfonnation TI unter fortwahcender Beriicksichtigung der 
Segmentiening-Iiiformation ASI und der Sprache-Iofommtion LI und der Spiechergnippe- 
Ihformation SGI und der Kontext-Infoimation CI, wobei auf das Erzeugen der 
hifonnationen ASI, LI, SGI und CI und insbesondere auf das Berucksichtigen der dazu 

jeweilsbenotigtenlnformationenCHI, ASI, Llund SGI nachfolgendnochim Detail 
eingegangen ist. 

Weiters wird bei dem Sprachedcennungsver&hren die SpracMnformatiQn SI 
empfengen und unter Ausnuteung des fiber einen der vier EmpfengskanSle 3, 5, 6 oder 7 
charakterisierenden Audiosignals AS der jeweils zum Empfengen der Sprachii^nnation 
SI verwendete Empfengskanal 3, 5, 6 oder 7 erkannt undeine den erkannten 
En5)fengskanal 3, 5, 6 oder 7 reprSsentlerende Kanalangabe-Information CHI erzeugt und 
die Kanalangabe-Ihformatian CHI bei dem Erkennen der akustischen Segmentierung, der 
Sprache, der Sprecher-Gruppe, des Kontexts und der Textinfonnation TI beriicksichtigt, 
wobei das Erkennen des Empfengskanals 3. 5, 6 oder 7 fortwahrend, und zwar fiameweise 
jeweils fur den eisten Frame des jeweiligen Tefls der SpiachinfomiatiQn SI erfolgt, und 
korrespondierend dazu die Kanalangabe-lhfonnation CHI fortwahrend aktualisiert, also 
neu erzeugt wird, und auch fortwahrend berucksichtigt wird. 
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Bei dem Sprachedceimuiigsverfahre^ erfolgt weiters das Erkennen der 
akustischen Segmentienmg unter B^cksichtigung der zu jedem Frame des jeweiligen 
Teils der Sprachinformation SI konespondierenden Kanalangabe-Information CHI. Dabei 
erfolgt das Erkennen der akustischen Segmentierung fiir den ersten Frame des jeweiligen 

5 Teils der Sprachinformation SI zeitverzogert um mindestens die zum l^tzeug^ der 
Elanalangabe-Information CHI benotigte Zdtspanne, wahrend der der jeweiUge Teil der 
Sprachinformation SI zum &zeugen der Kanalangabe-Iofbimationen CHI fSr den ersten 
Frame des jeweiligen Teils ausnutzbar ist. Eine weitece Verzogerung ist durch die von den 
ersten Spracheigenschaft-Erkemiungsmitteln 20 verursachte zweite 

10 Verarbeitimgsverzdgerung D2 bedingt. Nachfolgend daran wird die akustische 
Segmentierung firameweise aktualisiert. 

Bei dem Spracherkexmungsverfahren erfolgt weiters das Erkennen der Sprache 
unter zusStzlicher Beriicksichtigung der zu jedem Frame des jeweiligen Teils der 
Sprachinformation SI korrespondier^den Segmentierung-Lxformation ASL Dabei erfolgt 

IS das Erkennen der Sprache fur den ersten Frame des jeweiligen Teils der Sprachinformation 
SI zeitverzdgert um mindestens die zum Eizeugen der Kanalangabe-Information CHI und 
der Segmentierung-Information ASI benotigten Zeitspannen, wShiend denen der jeweilige 
Teil der Sprachinformation SI zum Erzeugen der beiden Informationen CHI und ASI fur 
den ersten Frame des jeweiligen Teils ausnutzbar ist. Eine weitere Verzogerung ist durch 

20 die von den zweiten Spracheigenschaft-Erkennungsmitteln 21 verursachte dritte 

Verarbeitungsverzogerung D3 bedingt. Nachfolgend daxan wird die Sprache frameweise 
aktualisiert. 

Bei dem Spracherkennungsver&hren erfolgt weiters das Erkennen der 
Sprecher-Gruppe unter zusatzlicher Beriicksichtigung der zu jedem Frame des jeweiligen 

25 Teils der Sprachinformation SI korrespondieienden Segmentierung-Information ASI und 
Sprache-Informatian LL Dabei erfolgt das Erkennen der Sprecher-Gruppe fiir den ersten 
Frame des jeweiligen Teils der Sprachinformation SI zeitverzogert um mindestens die zum 
&zeugen der Kanalangabe-Information CHI, der Segmentierung-Information ASI und der 
Sprache-Infonnation LI benotigten Zeitspannen, wahrend denen der jeweilige Teil der 

30 Sprachinformation SI zum Erzeugen der Lxformationen CHI, ASI und LI far den ersten 
Frame des jeweiligen Teils ausnutzbar ist Eine weitere Verzogerung ist durch die von den 
dritten Spracheigenschaft-Erkemmngsmitteln 22 verursachte vierte 
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Veracbeitungsverzogenmg D4 bedingt Nachfolgend daran wird die Spiecher-Gxiqjpe 
frameweise aktualisiert. 

Bei dem Spracherkemungsverfehien erfolgt wdters das Erkeimen des 
Kontexts unter zusatzlicher Beriicksichtigung der zu jedem Frame des jeweiligen Teils der 
5 Sprachinfonnation SI konespondierenden Segmentierung-Iiifoimation ASI, Spiache- 
Infonnation LI und Sprecheigtuppe-lDfiMmation SGL Dabei erfolgt das Erfceimen des 
Kontexts ffir den ersten Fiame des jeweiligen Tefls der Sprachinfonnation SI zeitveizogert 
urn mindestens die zum Eizeugen der In&nnation CHI, ASI, LI und SGI benotigten 
Zeitspannen, wahiend denen der jeweiHge Teil der Spiacbinformation SI zum Erzeugen der 
10 Infomiationen CHI, ASI, LI und SGI fur den Teilbereich des jeweiHgen Teils ausnutzbar 
ist. Eine weitere Verzogerung ist durcb die von den viertoi Spracheigenschafi- 
Erkennungsmitteln 23 verursachte fiinfte VerarbeitungsveizogetungDS bedingt 
Nadrfolgend daran wird der Kont^ j&ameweise aktualisiert 

Bei dem SprachericennungsvBrfelffen erfolgt weiters das Ericennen der zu der 

15 Sprachin&rmatiQn SI konespondierenden Textinformation Tl unter Berucksichtigung der 
zu jedem Frame des jeweiligen Teils der Sprachinfonnation SI korrespondierenden 
Information CHI, ASI, LI, SGI und CI flir den ersten Frame des jeweiKgen Teils der 
Sprachinfonnation SI zdtverzogert um mindestens die zum Eizeugen der Kanalangabe- 
Information CHI, der Segmentierung-Information ASI, der Sprache-Infonnation LI, der 

20 Sprechergnqjpe-Information SGI und der Kontext-Infoimation CI benStigten Zeitspannen, 
wahrend denen der jeweiUge Teil der Sprachinfonnation SI zum Eizeugen der 
Infotmationen CH^ ASI, U, SGI und CI fiir den ersten Frame des jeweiligen Teils 
ausnutzbar ist Eine weitere VerzSgerung ist durcih die von den Sprach-Eikennungsmittehi 
24 verursachte sechste Veiaibeitungsverzogerung D6 bedingt Nachfolgend daran wird die 

25 Textinformation TIjQ»meweise aktualisiert. 

Mit dem Computer 1 A wird das Spracheiicennungsverfehren durchgefuhr^ 
wemx das Computerprogiammprodukt auf dem Computer lA abgearbeitet wird. Das 
Computerpiogramniprodukt ist auf einem computerlesbaren in der Figur 1 nicht 
dargestellten Medium gespeichert, welches Medium im vorUegenden Fall duich eine 

30 Compact-Disc (CD) lealisiert ist Es sei an dieser Stelle erwahm^ dass anch eine DVD oder 
ein bandartiger Datentcager oder eine Hatddisc als Medium vorgesehen sein kann. Der 
Computer weist im vorliegpnden Fall als die Recheneinheit einen einzigen Mikroprozessor 



PHAT020070EP-P -24- 

auf- Es sei jedoch erwahnt, dass aus Performaace-Gxunden auch mehiere 
Mikroprozessoren, beispielsweise fur jedes Erkennungsinittel 18, 20, 21, 22, 23 und 24 ein 
eigener Mikroprozessor, vorgesehen sein konnen, Der interne Speicher IB des Computers 
1 A ist im vorliegenden Fall diirch cine Kombination einet in der Figur 1 nicht dargestellten 
S B[arddisc und eines mit Hilfe von sog^nannten RAM-Spdchem realisierten 
Arbeitsspeichers 39 lealisiert, so dass das Coniputeiprogranmi-Produkt von dem 
computerlesbaren Medium zunachst auf die I^brddisc speicherbar ist und zum Abarbeiten 
mit Hilfe der Recheneinheit in den Arbeitsspeicher 39 ladbar ist, wie dies dem Fachmann 
hinlanglich bekannt ist. Der Speicher IB ist weiters zum Speichem des vorverarbeiteten 
10 Audiosignals PAS imd der Infoimationen CHI, ASI, LI, SGI und CI und zum Speichem 
von in der Figur 1 nicht dargestellten zeitlichen Beziehungsdaten ausgebildet. Die 
zeitlichen Beziehungsdatenrepxasentieren eine zeitliche Beziehung zwischen den 
Teilbereichra der Sprachinfoimation SI, und den jeweils zu diesen Teilbereich 
koirespondierenden Informationen CH^ ASI, LI, SGI und Cl^ um das zeitlich 
IS synchronisierte Erkemien der akustischen Segmentierung, der Sprache, der Sprecher- 
Gruppe, des Kontexfs bzw. der Textinformation H ffir dm jeweiligen Teilbereich der 
Sprachinformalion SI zu ermoglichCT. 

Durch das Vorsehen der erfindvingsgemaBen MaBnahmen ist auf vorteilhafte 
Weise erreicht^ dass die Spracherkeimungseinrichtung 1 bzw. das 
20 Spracherkennungsverfahren erstmals in einem Anwendungsfall einsetzbar ist, in dem 
gleichzeitig eine Vielzahl von die Sprachinfotmation SI charakterisierenden 
Spracheigenschaften einer im wesentlichen zu beliebigen Zeitpunkten auftretenden 
VerSnderung unterworfen sind. Ein solcher Anwendungsfall ist beispielsweise bei einem 
Konforenz-Tiansdcriptionssystem gegeben, bei dem eine von beliebigen 
25 Konferenzteilnehmem erzeugte Sprachinformation SI kontinuierlich und annShemd in 
Echtzeit in eine Textinformation TI umgewandelt werden muss, wobei die 
Konferenzteilnehmer die Sprachinformation SI in einem Konferenzramn mit Hilfe des 
Audiosignals AS uber den ersten Eno^pfangskanal 3 der Spracherkennungseinrichtung 1 
zufuhren« Dabei konnen die Konferenzteilnehmer verschiedene Sprachen verwenden und 
30 individuell unterschiedlichen Sprecher-Gruppen zugeoidnet sein. Weiters konnen wahrend 
einer Konferenz Umstande eintreten, wie beisfpielsweise EBntergrundgerausche, welche die 
akustische Segmentierung beeinflussen. Weiters kann sich auch der jeweils verwendete 
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Kontext wSlnend der Konfeienz verandem. Zusatzlich ist auf vorteilhafte Weise 
ermoglicht, dass auch Konferenzteilnehmer, die sich nicht ixn Konferenzraum befinden, 
iiber weitere En^&ngskanale 5, 6 oder 7 der Spracherkeimun^eiiirichtung 1 die ilmen 
2xigeordnete Spiadunfonnation SI zufiihieii koonen. Selbst in diesem Fall ist bei der 
5 Spiacheikieimungseiniichfung 1 ein zuverlassiges Erkennen der Textin&nnatifHi TT 
gewahrleistet, weil der jeweils verwendete Emp&ngskanal 3, 5, 6 oder 7 etkamit und bei 
dem Eikeaaen der Spracheigenschaften - also bei dem E^zeugen und Aktoalisieien der 
Ihformatianen CHI, ASI, U, SGI und CI - bzw. bei dem Edcemen der Textinfoimation TI 
fintwahrend beriicksichtigt wird. 

10 Weiters ist ein solcher Anwendungsfell dann gegeben, wenn beispielsweise bei 

einem sogenannten Callcenter Anrufe von beliebigen Pecsoneo, die sich unterschiedlicher 
Sprachen bedienen konnen, mitpiotokolliert werden sollen. 

Weiters ist ein solcher Anwendungs&ll dann gegeben, wenn beispielsweise bei 
einem automatischen Telefbn-Infinmationsdienst beliebige Anrufer bedient werden sollen. 

IS Es sei an dies^ Stelle ausdriicldich daiauf hingewiesCT, dass die hier angefuhrten 
AnwendungsMle keine voUstSndige Ao&Shlung daistellen. 

Die in der Figur 3 daigestellten Featurevektor-Extrahierungsmittel 19 weisen. 
eine Preemphasis-Stufe 40 auf, die zum Empfengen des Audiosignals AS und zum 
Abgeben eines das Audiosignal AS reprasentierenden modifizierten Audiosignals AS' ' 

20 ausgebildet ist, wobei in dem modifizierten Audiosignal AS? ' hohere Frequeozen betont 
sind, um den Frequenzgang zu nivellieien. Weiters ist dne Frameblocking-Stufe 41 
vorgesehen, die zum En5)fengen des modifizierten Audiosignals AS" und zum Abgeben 
von in Frames F eingebetteten Teilen des modifizierten Audiosignals AS" ausgebildet ist 
Dabei weisen die benachbarten Fnunes F eine zeitliche t^berlqipung des Audiosignals 

25 AS" in ihren Randberdchen auf. Weiters ist eine Windowing-Stufe 42 vorgesehen, die 
zum Emplaugen der Frames F und zum Erzeugen von die Frames F reprasentierenden 
modifizierten Frames F% die hinsichtlich der Bandhreite des durch die Frames F 
reprasentierten Audiosignals begrenzt sind, um bei einer nachfolgenden Konversion in die 
Spektralebene unerwunschte Effekte zu vermeiden. Bei der Windowing-Stufe 42 kommt 

30 im vorliegenden Fall ein sogenanntes Hemoning-Fenster zum Einsatz. Es sei jedoch 
erwahnti dass auch andere Fenstertypen einsetzbar smd. Weiters ist eine Fast-Fourier- 
TransfinmatiQn-Stujfe 43 vorgesehen, die zum Emp&ngen der modifizierten Frames F' und 
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zum Erzeugen von zu dem in den modifizierten Frames F' enfhaltenen 
bandbreitebegrenzten Audiosignals A" korrespondierenden Vektoren VI auf der 
Spektralebene ausgebUdet ist, wobei im vorliegenden Fall ein sogenanntes „Zero-Pading"- 
Ver&luen zum Einsatz kommt Weiters ist eine Logarithmus-FiltCTbank-Stufe 44 

5 vQigeselien, die zum l^p&ngen der ersten Vektoren VI und der Kanalang^e-Information 
CHI und unter Ausnulzung der ersten Vektoren VI und unter Beriicksichtigung der 
Kanalangabe-Information CHI zum Erzeugen und Abgeben von zweiten Vektoren V2 
ausgebOdet ist, wobei die zweiten Vektoren V2 eine logariihmische Abbildung von aus den 
ersten Vektoren VI mit Hilfe einer Filterbankmethode eizeugbaren Zwiscbenvektoren 

10 reprasenti^en. 



Filterbankparameteipool-Stufe 44A auf, die einen Pool von Filterbankparametem 
speichert. Weiters ist eine Filterparameter-Auswablstufe 44B vorgesehen, die zum 
Empfangen der Kanalangabe-Information CHI und zum Auswahlen von zu der 

IS ICanalangabe-Infonnation CHI korrespondieienden Filterbanl^arametem FP ausgebildet 
ist Weiters ist ein sogenannter Logarithmus-Filterbank-Kem 44C vorgesehen, der in 
Abhangigkeit von den von der Filterparameter-Auswablstufe 44B empfangbaren 
Filterbankparametem FP zum Verarbeiten der ersten Vektoren Vl.und zum Erzeugen der 
zweiten Vektoren V2 ausgebildet ist 
-20 Die in der Figur 3 dargestellten Featurevektor-Extrahierungsmittel 19 weisen 

weiters eine erste Normierung-Stufe 45 auf, die zum Empfangen der zweiten Vektoren V2 
und zum Erzeugen und Abgeben von hinsichtlich der Amplitude der zweiten Vektoren V2 
mittelwertfreien dritten Vektoren V3 ausgebildet sind. Dadurcb ist gewSbrleistet, dass eine 
vom jeweiligen Etrqp&ngskanal unabhangige Weiterverarbeitung ermoglicbt ist. Weiters ist 

25 eine zweite Normierung-Stufe 46 vorgesehen, die zum Emp£mgen der dritten Vektoren V3 
und unter Berucksichtigung der zeitlichen Varianz fur jede der Komponenten der dritten 
Vektoren V3 zum Erzeugen von binsichflich der zeitlichen Varianz der dritten Vektoren 
V3 normierten vierten Vektoren V4 ausgebildet ist Weiters ist eine Diskrete-Cosinus- 
Transformation-Stufe 47 vorgesehen, die zum Empfengen der vierten Vektoren V4 und 

30 zum Umwandeln der vierten Vektoren V4 in die sogenannte „Cepstral"-Ebene und zum 
Abgeben von funften Vektoren V5 ausgebildet sind, die zu den vierten Vektoren V4 
korrespondieren. Weiters ist eine Feature-Vektor-Erzeugungsstufe 48 vorgesehen, die zum 



Die in der Figur 12 dargestellte Logarithmus-FilteAank-Stufe 44 weist eine 
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]&iq)langen der fimflen Vektoren V5 uxid zum Erzeugen der ersten vmd der zweiten 
zeitlichen Ableitimg der fiinfteii Vektoren V5 ausgebildet sind, so dass die von der 
Featurevektor-Erzeugungsstufe 48 abgebbare vektormaBige Reprasentation des 
Audiosignal AS in Pram der Featurevektoren FV, die funften Vektoren V5 in der 
5 MCepstral"-0)eneimddiedazu]a>ries|KmdierendenzdtiidienAbld1u^ 

Die in der Figur 4 dargestellten Enq>&ngskanal-Erkettnimgsmittel 1 8 weisen 
eingangssdtig dne l^pektralvektor-Exliahieningsstixfe 49 au^ die zum Enip&ngen des 
Audiosignals AS und zum Extrahieren und Abgeben von Spekttalvektoren V6 ausgebildet 
is<^ welche Spekhalvektoren V6 das Audiosignal AS auf der Spektralebene reprasentieren. 

10 Weiters weisen die Empfengskanal-Brkennungsmittel 18 eine Bandbegrenzungs- 
Erkennungsstufe 50 auf, die zum Empfangen der Spektralvektoren V6 und unter 
Ausnutzung des Spektralvektoren V6 zum Erkennen einer Bandbegrenzung des 
Frequenzbandes des Audiosignals AS ausgebildet ist, wobei die jeweils festgestellte 
Bandbegrenzung fur jeweils einen der vier Empfiaigskanale reprasentativ ist Die 

15 Bandbegrenzung-Erkennungsstufe 50 ist weiters zum Abgeben einer die erkannte 

Bandbegrenzung reprasentierenden Bandbegrenzung-Information BWI ausgebildet Die 
Enipfengskanal-Erkennungsmittel 18 weisen weiters eine Kanal-Klassifikationsstufe 51 • 
au^ die zum Empfengen der Bandbegrenzung-Information BWI und unter Ausnutzung 
dieser Ihfonnation BWI zum Klassifizieren des jeweils vorHegenden Empfengskanals und 

20 zum &zeugen der dazu korrespondierenden Kanalangabe-Infoimation CHI ausgebildet ist. 

Die in der Figur 5 dargestellten ersten Spracheigenschaft-Ericennungsmittel 20 
weisen eine Sprachpause-Erkennungsstufe 52 und eine Nicht-Spracbe-Erkennungsstufe 53 
und eine Musik-Erkennungsstufe 54 au^ wobei jeder der Brkennungsstufen 52, 53 und 54 
die Featurevektoren FV zufuhrbar sind. Die Sprachpause-Erkennungsstufe 52 ist zum 

25 arlsennen von Spracl5)ausen reprasentierenden FeatureveldxoenFV und zum Abge 

einer das Erfcennungsergebnis reprSsentierenden Spiaclq)ause-Infoimation SI ausgebildet. 
DieNicht-Sprache-Erkennungsstufe 53 ist zum Empfengen derKanalangabeinformation 
CHI und unter Berucksichtigung der Kanalangabe-Information CHI zum Eikennen von 
Nicht-Sprache reprasentierenden Featurevektoren FV und zum Abgeben einer die Nicht- 

30 Sprache reprasentierenden Nicht-Sprache-InfoTmation NSI ausgebildet. Die Musik- 
Erkennungsstufe 54 ist zum Empfimgen der Kanalangabeinfbrmation CHI und unter 
Beriicksichtigung der Kanalangaibe-Infonnation CHI zum Erfcennen von Musik 
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reprasentiereiideti Featurevektoien FV und zum Erzeugen und Abgeben einer das Erkennen 
der Musik reprasentierenden Musik-Infonnation MI ausgebildet Die ersten 
Sprachdgenschaft-Erkenmmgsmittel 20 weisen weiters eine Infonnation-Aiiswertungsstufe 
55 au^ die zum Emp&ngea der Sprachpause-Iiifoiination SI und der Nicht-Sprache- 
5 Information NSI und der Musik-Informalion MI ausgebildet ist Die Infonnation- 

Auswertungsstufe 55 ist weiters zum Auswerten der Informationen SI, NSI und MI und als 
ein Ergebnis des Auswertens zum Erzeugen und zum Abgeben der Segmentierung- 
Information ASI ausgebildet, wobei die Segmentierung-Information ASI angibt, ob der 
jeweils dutch die Featurevektoren FV reprasentierte Frame des Audiosignals AS einer 
10 Sprachpause oder Nicht-Sprache oder Musik zugeordnet ist, und die angibt, wenn der 
jeweilige Frame weder einer Sprachpause oder einer Nicht-Sprache oder einer Musik 
zugeordnet ist, dass der jeweilige Frame Sprache zugeordnet ist. 



weiters auf trainierbare Weise zum &kennen von Musik ausgebildet und ist zu diesem 

15 Zweck zum Emp&ngen einer Segmentierung-Training-Information STI ausgebildet. Die 
Musik-Erkennungsstufe 54 weist eine Klassifikationsstufe 56 auf, die unter Zuhilfenahme 
von zwei Gnippen von sogenamiten „Gausian-Mixture-Modells** zum Klassifizieren der 
Featurevektoren FV hinsichtlich von Musik reprasentietenden Featurevektoren FV und 
hinsichtlich von Nicht-Musik reprasentierenden Featurevektoren F V ausgebildet sind. 

20 Dabei ist jedes zu der ersten Gruppe gehSrende erste Gausian-Mixture-Modell GMMl 
einer Musikklassifizierung und jedes zu der zweiten Gruppe gehorende zweite Gausian- 
Mixture-Modell GMM2 einer Nichtmusikklassifizierung zugeordnet. Die 
Klassifikationsstufe 56 ist weiters als ein Ergebnis des Klassifizierens zum Abgeben der 
Musikinformation MI ausgebildet ist Die Musik-Erkennungsstufe 54 weist weiters eine 

25 erste Modell-Auswahlstufe 57 und eine erste Modell-Speicherstufe 58 auf Die erste 
Modell-Speicherstufe 58 ist fiir jeden der Emp&ngkanale zum Speichem eines der 
Musikklassifizierung zugeordneten Gausian-Mbcture-Modells GMMl und zum Speichem 
eines der Nichtmusilddassifizierung zugeordneten Gausian-Mixture-Modell GMM2 
ausgebildet. Die erste Modell-Auswahlstufe 57 ist zum Empfangen der Klanalangabe- 

30 Information CHI und unt^ Zuhilfenahme der Kanalangabe-Ihformation CHI zum 

AuswaUen eines zu dem jeweils angegebenen Empfangskanal korrespondifflenden Paares 
von Gausian-Mixture-Modells GMMl und GMM2 und zum Abgeben der kanalspezifisch 



Die in der Figur 13 im Detail dargestellte Musik-Erkemiungsstufe 54 ist 
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ausgewaWten Gaiisdan-lVfixture-Modells GMMl und GMM2 an die Klassifikationsstufe 56 
ansgebildet 

Die Musik-Erkennungssmfe 54 ist weiters zum Trainieren der Gausian- 
Mixture-Modells ausgebildet und weist zu diesem Zweck eine erste Tteiningsstufe 59 und 
eine eiste Datenstoomsteuerstufe 60 auf Der ersten Tiainingsstafe 59 sindbei dem 
Training mit Hilfe der Datenstromsteuerstufe 60 Featuievektoren FV zufuhibar, die in 
vMbestimmter Weise jeweils zu einer einzigen Klasse, nSmHch Musik oder Nicht-Musik 
gehSien. Die Tiainingsstufe 59 ist zum Trainieren der kanalspezifischen Paaie von 
Gausian-Mixture-Modells GMMl und GMM2 ausgebildet. Die erste Modell-AuswaWstufe 
57 ist unter Zuhilfenahme der Kanalangabe-Ihformation CHI und der Segmentierung- 
Tiaining-Information STI zum Abgeben der Gausian-Mixture-Modells GMMl und GMM2 
an dafur vorgesehene Speicherpositionen in der ersten ModeU-Speicherstufe 58 
ausgebildet 

Die in der Figur 6 dargesteUten zweiten SpracheigenscliaftlErkennungsmittel 
21 weisen eingangsseitig eine ersle Sprachfilieistufe 61 au^ die zum En^fengen der , 
FeatuiBvektoren FV und zum En?»fengen der Segmentierung-Lifonnalion ASI und unter 
Ausnutzung der S^entierung-Ioformation ASI zum Ausffltem von Sprache 
repiSsentierenden Featurevektoten FV und zum Abgeben der die Sprache 
repiSsentieienden Featurevektoren FV ausgebildet ist. Die zweiten Spracheigenschaft- 
Eriremiungsmittel21 weisen weiters eine zweite ModeU-Speicherstufe 62 au^ die fiir jeden 
der vier Empfangskanale zum Speichem von jeweils einem methrsptachigen ersten 
Phonem-ModellPMl ausgebildet und vorgesehen ist Die Erkennungsmittel 21 weisen 

weiters eine zweite ModeU-Auswahlstufe 63 auf, die zum Empfengen der Kanalangabe- . 
Information CHI und unter Ausnutzung der Kanalangabe-Information CHI zum Zugreifen 
auf das zu dem durch die Kanalangabe-Ihfonnation CHI angegebenen En5)fangskanal 
konespondierende mehrsprachige Phonem-Modell PMl in den zweiten Modell- 
Speichetstufe 62 und zum Abgeben des so ausgewahlten kanalspezifischen mehrsprachigen 
Phonem-Modells PMl ausgebildet ist Die Erkennungsmittel 21 weisen weiters eine 
Phonem-Erkennungsstufe 64 au^ die zum Empfengen der Spiache reprSsentietenden 
FeaturevektorenFV und des Phonem-Modells PMl und unter Ausnutzung der 
Featurevektoren FV und des Phonem-Modells PMl zum Erzeugen und zum Abgeben einer 
phonetischen Tianskription PT der duich die Featmevektoien FV leptSsentierten Sptache 
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aasgebildet ist. Die Erkennungsimttel 21 wdsen weitets eine diitte Modell-Speidierstufe 
65 auf, die fiir jede Sprache zum Speichem eines phonotaktischen Modells PTM 



Klassifikationsstufe 66 auf, die zum Zugreifen auf die dritte Modell-Speicherstufe 65 und 
5 unter Zuhilfenahme des phonotaktischen Modells PTM zum phonotaktischen 
Klassifizieien der phonetiischen Tianskription PT ausgebildet sind, wobei die 
Wahrscheinliclikeit des Vorliegens einer Sprache fiir jede verfiigbare Sprache bestimmbar 
ist Als ein ^ebnis des Bestimmens der zu jeder Sprache korrespQiidierenden 
Wahrschemlichkeiten ist die zweite Klassifikationsstufe 66 zum Eizeugen und zum 
10 Abgeben der Sprache-Infonnation LI ausgebildet, welche Sprache-Monnation LI jene 
Spiache angibt, fiir die die groBte Wahrscheinlichkeit festgesteUt wuide. 



Erkennens der Sprache beeinflussbar und weisen zu diesem Zweck eine zweite 
Datenstromsteuerstufe 67, eine dritte Datenstromsteuerstufe 68 und eine zweite 

IS Ttainingsstufe 69 und eine dritte Trainingsstufe 70 au£ Jm Falle eines Trainings sind mit 
Hilfe der zweiten Datenstromsteuerstufe 67 die Sprache reprasentierenden Featurevektoren 
FV der zweiten Trainingsstufe 69 zufuhrbar. Die zweite Trainingsstufe 69 ist zum 
Empfangen dieser Featurevektoren FV und zum Empfangen einer Ttaining-Text- 
Infonnation TTI und zum Empfangen der Kanalangabe-Information CHI ausgebildet, 

20 wobei eine aus der Training-Text-Infonnation TTI erzeugte phonetischen Transkription zu 
der durch die Featurevektoren FV reprasentierten Sprache korrespondiert Die zweite 
TlBiningsstufe 69 ist demgemafi unter Ausnutzung der Featurevektoren FV und der 
Training-Text-Information TTI zum Trainieren und zum Abgeben des trainierten Phonem- 
Modells PMl an die Modell-Auswahlstufe 63 ausgebildet Die Modell-Auswahlstufe 63 ist 

25 weiters unter Zuhilfenahme der Kanalan^e-Infonnation CHI zum Abgeben des 

trainierten Fhonem-Modells PMl an die zweite Modell-Speich^rstufe 62 ausgebildet wo 
sie an einer zu der Kanalangabe-Infoimation CHI korrespondierenden Speicherposition in 
der zweiten Modell-Speicherstufe 62 speicherbar sind 



30 die von der Phonem-Erkennungsstufe 64 erzeugbare phonetische Transkription PT der 
dritten Trainingsstufe 70 zufohrbar. Die dritte Trainingsstufe 70 ist zum Emp&ng^n der 



ausgebildet und vorgesehen ist. Die Erkeimungsmittel 21 weisen weiters eine zweite 



Die Erkeimungsmittel 21 sind weiters auf trainierbare Weise hinsichtlich des 



Im Fall des Trainings ist weiters mit Hilfe der dritten Datenstromsteuerstufe 68 



phonetischen Transkription PT und zum Trainieren und zum Abgeben eines zu der 
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jeweiligen Trammg-Sprache-Infonnation TLI zugeordneten phontaktischen Modells PTM 
an die dritte ModeU-Speicherstufe 65 ausgebUdet. Die dritte ModeU-Speicherstufe 65 ist 
zum Speichem des zu einer Sprache gehorenden phanotaktischen Modells PTM an einer zu 
der Tiaining-Spiache-biformation TLI konespondieFeiiden Spdcheiposition ausgebildet 
5 Es sei an dieser Stelle erwahnt, dass die in der zweiten Modell-Speichetstufe 62 und in der 
dritten Modell-Speicherslufe 65 gespeicherten Modelle PMl und PTM im Fachjargon als 
tiainierbaie Ressouicen bezeichnet werden. 

Die 2?nreite Trainingsstufe ^ ist im Detail in der Figur 14 dargestellt und weist 
eine vierte Modell-Speicherstufe 71 und eine dritte Modell-Auswahlstufe 72 und eine 

10 Modell-Gruppierungsstufe 73 und eine ModeU-Ausrichtungsstufe 74 und eine Modell- 
Abschatzungsstufe 75 auf. Die vierte Modell-Speicherstufe 71 ist fur jeden Kanal und jede 
Spracbe 2xim Speichem eines kanal- und spiachespezifischen initialen Phonem-Modells 
IPM ausgebildet und vorgesehen. Die dritte ModeD-Auswahlstufe 72 ist zum Zugreifen auf 
die vierte Modell-Speicherstufe 71 und zum Etnp&ngen der Kanalan^be-InfbnnatiQn CHI 

15 undunterAusnutzungderKanalangabe-InfonnationCHIznmAuslesendeszuder 

Kaimlans^be-Iiiformation CHI konespondierenden initialen Phonem-Modells IPM fur alle 
Sprachen ausgebildet Die dritte Modell-Auswahlstufe 72 ist weiters zum Abgeben von 
einer zu dem jeweiligen Kanal korrespondierenden Mehrzahl von spiachespezifischen '■] 
Phonem-Modellen IPM an die Modell-Gruppierungsstufe 73 ausgebildet. Die Modell- 

20 Gruppierungsstufe 73 ist zum Gruppieren von zueinanderShnUchen und zu verschiedenen 
Sprachen gehorenden sprachspezifischen Phonrai-Modellen IPM und zum Erzeugen und 
zum Abgeben eines initialen mehrsprachigen Phonem-Modells IMPM an die Modell- 
Ausrichtungsstufe 74 ausgebildet Die Modell-Ausrichtungsstufe 74 ist zum En^fengpn 
der Sprache repcSsentier^den Featurevektoren FV und zum Etnp&ngen der dazu 

25 korrespondierenden Training-Text-Information TIT und unter Zuhilfenahme des initialen 
mehrsinachigen Phonem-Modells IMPM zum Eizeugen von Zuoidnungsinfoimationen RE 
ausgebildet die zum Zuordnen der Featurevektoren FV zu durch die Training-T^ct- 
iDformation TTT reprasentierten Textteilen vorgesehen sind, wobei die 
Zuordmmgsinfoimationen RE im Fachjargon auch als Pfede bezeichnet werden. Das 

30 Zuordnen selbst wird im Fachjargon auch als ^gmnenf * bezeichnet Von der ModeU- 
Ausrichtungsstufe 74 sind die Zuordnungsinformationen RE und die Feabuevektoren FV 
an die Modell-Abschalzungsstufe 75 abgebbar. Die Modell-Abschatzungsstufe 75 ist unter 
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Ausnutzung der ZuordnungsiBformalionen RE und der Featurevektoren FV zum Erzeugen 
und Abgeben des auf dem initialen mehrsptachigen Phonem-ModeU EMPM basierenden 
mehrspiachigen Phonem-ModeU PMl an die in der Figur 7 darg^tellte zweite Modell- 
Speicheistufe 62 ausgebildet Zu diesem Zweck wird unter Ausnutzung der 
5 Featurevektoren FV und der Zuordnungsinformation RE ein temporares mehrsfprachiges 
Phonem-Modell TMPM erzeugt und an die Modell-Abschatzungsstafe 74 abgegeben, 
wobei in mehreren Iterationsschritten, also durch ein mehr&clies Zusammenwirken der 
Stufen 74 und 75, das mehrsprachige Phonem-Modell PMl erzeugt wird. 

Die in der Figur 7 im Detail dargestellten dritten Spracheigenschaft- 

10 Erkennungsmittel 22 weisen eingangsseitig eine zweite SprachfQterstufe 76 auf, die zum 
Empfangen der Featurevektoren FV und der Segmentierung-biformation ASI und unter 
Ausnutzung der Segmentierung-Information ASI zum Filtem und Abgeben von Sprache 
reprSsentierenden Featurevektor^ FV ausgebildet ist Die Erkennungsmittel 22 weisen 
welters eine funfte Modell-Speicherstufe 77 au^ die for jeden Kanal und jede Sprache zum 

IS Speichem von Spiechergruppen-Modellen SGM ausgebildet und vorgesehen ist Die 
Erkennungsmittel 22 weisen welters eine vierte Modell-Auswahlstufe 78 au^ die zum 
Empfangen der Kanalangabe-Infoimation CHI und der Spiache-Information LI ausgebildet 
ist und die unter Ausnutzung der Kanalangabe-Information CHI und der Sprache- 
Information LI zum Zugreifen auf das jeweilige Sprechergruppen-Modell SGM, das zu der 

20 jeweiUgen Kanalangabe-Information CHI und der jeweiligen Sprache-Information LI 
korrespondiert, ausgebildet ist Die vierte Modell-Auswahlstufe 78 ist welters zum . 
Abgeben des durch das Zugreifen auf die fiinfte Modell-Speicherstufe 77 auslesbaren 
Sprechergrappe-Modells SGM ausgebildet. Die Erkennungsmittel 22 weisen welters eine 
dritte Klassifikationsstufe 79 auf, die zum Emp&ngen des von der vierten Modell- 

25 Auswahlstufe 78 in Abhangigkeit von den Informationen CHI und LI ausgewShlten 
Sprechergnqype-Modells SGM und zum Enrqp^gen der Sprache reprasentierenden 
Featurevektoren FV und unter Zuhilfenahme des ausgewahlten Sprechergrappen-Modells 
SGM zum Klassifizieren, welcher Sprechergrappe die Featurevektoren FV zuordenbar 
sind, ausgebildet ist. Die dritte Klassifikationsstufe 79 ist welters als ein Ergebnis des 

30 Klassifizierens zum Erzeugen und zum Abgeben der Sprecheigrappe-Informatlon SGI 
ausgebildet 

Mit Hilfe der funften Modell-Speich^stufe 77 ist erne weitere trainierbaxe 



w m 
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Ressource lealisiert, wobei die darin gespeicherten Sprechergn^jpen-Modelle SGM auf 
trainierbare Weise veranderbar sind, Zu diesem Zweck weisen die Erkennungsmittel 22 
eine vierte Trainingstufe 80 und eine vierte Datenstcomsteueistufe 81 auf Im Fall eines 
Trainings sindmit BQlfe der vierten Datenstromsteueratufe 81 die Sprache lepiasentieiende 
5 Featuievektoren FV der vierten Trainingsstufe 80 zufDhfbar. Die vierte Trainingsstufe 80 
ist ffir eine AnzaM von Sprecher zum Emp&agen von jeweils einem Spiecher 
zugeordneten Featurevektoren FV und der jeweils dazu konespondierenden Tiaining-Tejrt- 
Infinmation TIT und zum Trainieren des jeweiligen Sprecheigruppen-Modells SGM und 
zum Abgeben des jeweiligen tcainierten Sprechergruppen-Modells SGM an die vierte 

10 Modell-Auswahlstufe 78 ausgebildet. 

Die in der Figur 15 im Detail dargestellte vierte Training-Stufe 80 weist eine 
sechste Modell-Speicherstufe 82, eine funfle Modell-AuswaMstufe 83, eine Modell- 
Anpassungsstufe 84, eine Zwischenspeicherstufe 85 und eine Modell-Gruppierungsstufe 86 
au£ Die secbste Modell-Speicheistufe 82 ist fur jeden Kanal und jede Sprache zum 

1 5 Speichem von sprecherunabhgngigen Fhonem-Modellen SIPM vorgesehen und 

ausgebildet Die fiinfle Modell-Auswahlstufe 83 ist zum Eaipfeiigen der Kanalangabe- ^ 
Infoimation CHI und der Sprache-Infoimation LI und unter Ausnutzung dieser beiden 
Informationen CHI und LI zum Zugreifen auf die sechste Modell-Speicherstufe 82 bzw. 
auf das zu der jeweiligen Information CHI xmd LI korrespondierende initiale 

20 sprecherunabhangige Phonem-Modell SIPM und zum Abgeben des ausgewahlten nunmehr 
kanal- und sprachespezifischen und spcedherunabhangigen Phonem-ModeUs SIPM 
ausgebildet 

Die Modell-Anpassungsstufe 84 ist zum Emp&ngen des ^mafi der 
Kanalangabe-Information CHI und der Sprache-Information LI ausgewahlten und somit 

25 kanal- und sprachespezifischen initialen sprecherunabhangigen Phonem-Modells SIPM, 
der Sprache reprasentierenden Featurevektoren FV und der dazu korrespondier^den 
Training-Text-Infonnation TIT ausgebildet. Die Modell-Anpassungsstufe 84 ist weiteis fur 
eine Vielzahl von Sprechem, deren Sprachinformation SI durch die Featurevektoren F V 
reprasentiert ist, zum Erzeugen und zum Abgeben von je einem Sprecheimodell SM an die 

30 Zwischenspeicherstufe 85 ausgebildet, bei der das jeweilige Sprechermodell SM 

speicherbar ist Das Sptachmodell SM wird auf Grundlage des sprecheruzabhSngigen 
Phonem-Modells SIPM unter Anwendung eines Adaptionsver&hiens er^gt Nachdem 
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fur die gesamte Anzahl der Sprecher die Sprechennodelle SM gespeichert warden, ist mit 
Hilfe der ModeU-Gruppiertmgsstufe 86 ein Gruppieren der Vielzahl der Sprechennodelle 
SM hinsichtKch ahnlicher Sprechereigenschaften zu einzelnen Spiechergruppen-Modelleii 
SGM dmchfuhrbar. Die einzelnen Sprechergruppen-Modelle SGM sind an die Modell- 
Auswahlstufe 78 abgebbar und von der Modell-Auswahlstufe 78 tinter Ausnutzung der 
Infoimationen CHI und LI in der Modell-Speicherstufe 77 speicherbar. 



Erkennungsmittel 23 weisen erne Stichwort-Phonem-Sequenzerkennungsstufe 88 und eine 
Stichwort-Erkennungsstufe 89 und eine Stichwort-Kontext-Zuordnungsstufe 90 auf. Die 
Stufe 88 ist zum Empfengen der Featurevektoren FV und zum Empfengen eines zweiten 
Phonem-Modells PM2, das kanal- und sprache- und sprechergruppespezifisch ist, und zum 
Empfangen einer Stichwort-I^xikon-Infotmation KLI ausg^bildet Die Stufe 88 ist welters 
unter Ausnutzung des zweiten Phonem-Modells PM2 und der Stichwort-Lexikon- 
Information KLI zum Erkenn^ einer durch die FeaturevektorCT F V reprasentierten 
Stichwort-Sequenz und zum Erzeugen und zum Abgeben einer Stichwort-Bewertung- 
Information KSI ausgebildel^ die ein erkaimtes Stichwort und die Wahrscheinliclikeil^ mit 
der dieses Stichwort erkannt wurde, reptSsentiert Die Stichwort-Edcennungsstufe 89 ist 
zum Emp&ngen der Stichwort-Bewertung-Information KSI und zum Empfangen eines von 
dem Empfengskanal, der Sprache, der Spiechergnippe und dem Stichwort abhangigen 
Stichwort-Entscheidung-Schwellwerts KWDT ausgebildet Die Stufe 89 ist welters unter 
Zuhilfenahme des Stichwort-Entscheidung-Schwellwerts KWDT zum Erkranen 
ausgebildet, welche der mit Hilfe der Stichwort-Bewertungsinformation KSI emp&ngraen 
Stichworter erkannt wurden. Als ein Ergebnis dieses Erkennens ist die Stichwort- 
Erkennungsstufe 89 zum Erzeugen einer Stichwort-Information KWI und zum Abgeben 
dieser Stichwort-Ihfomiation KWI an die Stichwort-Kontext-Zuordnungsstufe 90 
ausgebildet. Die Stichwort-Kontext-Zuordnungsstufe 90 ist welters zum Zuordnen des mit 
Hilfe der Stichwort-Infcmnation KWI empfiangenen Stichwortes zu einem Kontext 
ausgebildet, der im Fachjargon oft auch als „topic" bezeichnet wird. Als ein Ergebnis 
dieses Zuordnens ist die Stichwort-Kontext-Zuordnungsstufe 90 zum Erzeugen der 
Kontext-Infonnation CI ausgebildet. Die vierten Spracheigenschafi-Erkemnmgsmittel 23 
weisen welters eine siebente Modell-Speicheistufe 91 auf, die for jeden Emp&ngskanal 
und jede Spradie und jede Sprecher-Gnrppe zum Speichem der zweiten Phonem-Modelle 



Die in der Figur 8 im Detail daigestellten vierten Spracheigenschaft- 
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PM2 ausgebildet imd voigesehen ist Die Erkennungsmittel 23 weisen weiters eine sechste 
Modell-Auswahlstufe 92 au^ die zum Empfangen der Kanalangabe-Infonnation CHI und 
der Spiache-Infonnation LI und der Sprechergnippe-Infonnation SGI ausgebildet ist Die 
sechste Modell-Auswahlstufe 92 ist weiters unter Zuhilfenahme der Kanalangabe- 
5 Infimnation Cffl und der Sprach-Information LI und der Sprecher-Gruppe-Infiwmation SGI 
zum Auswahlen vcm einem der in der siebenten Modell-Speicherstufe 91 gespeicherten 
zweiten Phcmem-ModeUe PM2 und zum Abgeben des ausgewahlten zweilen Phonem- 
Modells PM2 an die Stichwort-Phonem-Sequenzerkennungsstufe 88 ausgebildet. 

Die Edcennungsmittel 23 weisen weiters eine Schlusselwort-Lexikon- 
10 Speicherstufe 93 und eine Sprache-Auswahlstufe 94 auf. Die Schliisselwort-Lexikon- 
Speicherstufe 93 ist zu jeder verfugbaren Sprache zum Speichem von Schiasselwortem 
ausgebildet und vorgesehen. Die Sprache-Auswahlstufe 94 ist zum Empfengen der 
Sprache-Information LI und zum Zugreifen auf die Schliisselwort-Lexikon-Speicherstufe 
93 ausgebadel, wobei unter Zuhilfenahme der Sprache-Ihformation LI eine zu der Sprache- 
15 Infomiation LI konespondierende Stichwort-Lexikan-InfiMmation KLI, welche die 

Stichwaner einer Sprache leprasentiert, an die Stichwart-Phonem-Sequenzerkennungsstu^ 
88 abgebbar ist Die Ericennungsmittel 23 weisen weiters eine Schwellwert-Speicherstufe • 
95 auf, die zum Speichem von dem jeweiHgen Empfengskanal, der Sprache, der Sprecher-' 
Gruppe und dem Stichwort abhSngigen Stichwort-Entscheidungs-SchweUwerten KWDT 
20 ausgebildet und vorgesehen ist. Die Edcennungsmittel 23 weisen weiters eine SchweUwert- 
Auswahlstufe 96 auf, die zum Empfengen der Kanalangabe-Information CHI und der 
Sprache-Ioformation LI und der Sprecheigruppe-Ioformation SGI ausgebildet ist Die 
Schwellwert-Auswahlstufe 96 ist weiters in AbhSngigkeit von den Infimnalionen CHI, U 
und SGI zum Zugreifen auf die in der Schwellwert-Speicherstufe 95 gespeicherte zu den 
Infomiationen CHI, LI und SGI konespondietenden Stichwort-Entscheidung-Schweflwerte 
KWDT ausgebildet Die Schwellwert-Auswahlstufe 96 ist weiters zum Abgeben der so 
ausgewahlten Stichwort-Entscheidung-SchweUwerte KWDT an die Stichwort- 
Erkennungsstufe 89 ausgebildet 

Die Ericennungsmittel 23 sind weiters auf trainierbaie Weise zum Erfcennen der 
Kontext-Information CI ausgebildet, wobei zwei trainierbare Ressourcen durch die siebente 
Moden-Speicherstufe 91 und die Schwellwert-Speicherstufe 95 gebildet sind. Die 
Brkennungsmittel 23 weisen wdtets eine funfte Trainingsstufe 97 und eine sechste 



25 



30 
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Trainingsstofe 98 imd erne funfte Datenstromsteuetstufe 99 und erne sechste 
Datenstromsteuerstufe 100 auf. Bei einem Training der Etkexmungsmittel 23 sind mit BDlfe 
der sechsten Datenstromsteuerstufe 100 die Featurevektoren FV der fimften Trainingsstufe 
97 zufuhrbar. Die fiinfte Trainingsstufe 97 ist weiters zum Empfangen der Featurevektoren 
FV und der dazu korrespondierenden Training-Text-Infonnation TTI und unter 
Zubilfenahme eines sogenannle Viterbi-Algorithmus zum Erzeugen und zum Abgeben 
eines der zweiten Phonem-Modelle PM2 an die secbste Modell-Auswahlstufe 92 
ausgebildet, wodurcb die zweiten Phonem-Modelle PM2 fur jeden Kanal und jede Spracbe 
und jede Sprecher-Gruppe erzeugt werden. Mit Hilfe der Modell-Auswahlstufe 92 sind die 
zweiten Phonem-Modelle PM2 in der Modell-Speicherstufe 91 an mit Hilfe der 
Informationen CHI, LI und SGI bestimmbaren Speicherpositionen speicherbar. Weiters ist 
mit Hilfe der fiinften Datenstromsteuerstufe 99 die Stichwort-Lexikon-Information KLI der 
sechsten Trainingsstufe 98 zufiihrbar. Bei einem Training ist die Stichwort-Phonem- 
Sequenz^kennungsstufe 88 zum Eikennen einer Phonem-Sequenz in Featurevektoren FV, 
welche die Sprache reprasentieien, und zum Erzeugen und zum Abgeben einer die ^kannte 
Phonem-Sequenz reprasentieienden Phonem-Bewertung-Infonnation PSI an die sechste 
Trainingsstufe 98 ausgebilde^ wobd die Phonem-Bewertung-Information PSI die 
erkannten Phoneme und zu jedem Phonem die Wabrscheinlichkeit, mit der es erkannt 
wurde, reprasentiert. 

Die sechste Trainingsstufe 98 ist zum Emp&ngen der Phonem-Bewertungs- 

Information PSI und der Stichwort-Lexikon-Information KLI und unter Ausnutzung dieser 
beiden Informationen PSI und KLI zum Erzeugt — also zum Trainieren - und zum 
Abgeben eines zu den Informationen CHl^ LI und SOI korrespondierenden Stichwort*- 
Entscheidung-SchweUwerts KWDT an die Schwellwert-Auswahlstufe 96 ausgebildet Die 
Schwellwert-Auswahlstufe 96 ist unter Ausnutzung der Informationen CHI, LI und SGI 
zum Abgeben des Stichwort-Entscheidung-Schwellwerts KWDT an die Schwellwert- 
Speichermittel 95 ausgebildet. Mit Hilfe der Schwellwert-Auswahlstufe 96 ist der 
Stichwort-Entscheidung-Schwellwert KWDT in einer durch die Informationen OEII, LI und 
SGI bestimmten Speicheiposition speicherbar. 

Die in der Figur 16 im Detail dargestellte sechste Trainingsstufe 98 weist eine 
Phonem-Wahrscheinlichkeitsverteilung-Abschatzungsstufe 101 aul^ die zum Emp&ngen 
der Phonem-Bewertung-Information PSI und zum Abschatzen einer statislischen 
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Verteilung der gesprochenen Phoneme und der nicht gesprochenen Phoneme unter der 
Annahme, dass es sich jeweils um eine GauB-VerteUung handelt, ausgebildet ist Die Stufe 
101 ist also ein Ergebnis dieser Abschatzung zum Eizeugen und zum Ab^ben einer eisten 
Abschatzung-Ihformation El ausgebildet Die sechste Trainingsstufe 98 weist weitets eine 
5 Stichwort-WahrscheinHchkBitsverteilung-Abschatzungsstufe 102 auf, die zum Eii5>feogen 
der ersten Abschatzung-Infoimatiini El und der Stichwort-Lexikon-&ifiumatiQn KLI 
ausgebildet ist Die Stufe 102 ist welters unter Ausnutzung der beiden InjEbonaticnien KLI 
und EI zum AbschStzen einer statistischen Verteilung der gesprochenen Stichwort^ und 
der nicht gesprochenen Stichwdrter ausgebildet Die Stufe 102 ist welters als ein Ergebnis 

10 des Abschatzens zum Erzeugen und zum Abgeben einer zweiten Abschatzung-InfotmatiQn 
E2 ausgebildet Die sechste Trainingsstufe 98 weist welters eine Stichwort-Entschddung- 
Schwellwert-Abschatzungsstufe 103 auf, die unter Ausnutzung der zweiten Abschatzung- 
Information E2 zum Abschatzen des jeweiligen Stichwort-^tscheidung-Schwellwerts 
KWDT und als ein Ergebnis dieses Abschatsens zum Abgeben des Stichwort- '■>. 

15 Entscheidung-Schwellwerts KWDT ausgebildet ist 

Die in der Figur 9 im Detail dargestellten Spracherlssnnungsmittel 24 weise^ 
eingangsseitig eine diitte SprachfQterstufe 104 auf, die zum Empfengen der i 
Featurevektoren FV und zum Empfangen der Segmentierung-Information ASI und unter 
Ausnutzung der Segmentierung-Iofonnation ASI zum Filtem der empfangenen 
20 Featurevektoren FV und zum Abgeben von Sprache reprasentieienden Featurevektoren FV 
ausgebildet ist 

Die Erkennungsmittel 24 weisen weiteis eine Spiachmuster-EdceDnungsstufe 
105 auf, die zum Empfengen der Sprache reprSsentierenden Featurevektoren FV und zum 
Empfengen eines diitten Fhonem-Mcdells PM3 und zum Empfengen von Kontext-Daten 

25 CD ausgebildet ist Die Sptachmuster-Erkemiungsstufe 105 ist weiters unter Ausnutzung 
des dritten Phonem-Modells PM3 und der Kontext-Daten CD zum Erkennen eines Musters 
in den Featurevektoren FV, welche die Sprache reprasentieren, und als ein Ergebnis des 
Erkemiens eines solchen Must^ zum Erzeugen und zum Abgeben einer Wortgraph- 
Information WGI ausgebildet Die Wortgraph-Infoimation WGI reprasentiert Gi^hen von 

30 Wortem oder Wortfolgen und ihnen zugehSrige Wahrscheinlichkeitsinfarmationen, die 
angeben, mit welcher WahrschehUichkBit die W6rter oder Wortfolgen in der jeweiligen 
gesprochenen Sprache mSglicherweise aufiretra. 
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Die Etkennungsmittel 24 weisen welters eine Gx^h-Bewertungsstufe 106 auf, 
die zum Empfangen der Wortgraph-Infonnation WGI und zum Feststellen ausgebildet ist, 
welcher Pfad in dem Graph die hinsichtlich des Erkennens der Textmformation TT die 
beste Wortfolge aufweist Die Graph-Bewertungsstufe 106 ist weiters als ein Ergebnis des 
S Feststellens der besten Wortfolge zum Abgeben einer zu dieser braten Wortfolge 
kotrespondierenden unformatialeii Textiiifonnation TI' ausgebildet 

Die Erkennungsmittel 24 weisen weiteis eine Formatierung-Speicherstufe 107 
und eine Formatierung-Stufe 108 auf. Die Fotmatierung-Speicherstufe 107 ist zum 
Speichem einer Formatierung-Infonnation FX ausgebildet, mit deren Hilfe Regeln 

10 reptasentierbar sind, die angeben, wie die unformatierte Textinformation TI' zu 
fonnatieren ist. Die Formatierung-Stufe 108 ist zum Empfangen der unformatierten 
Textmformation TI' und zum Zugreifen auf die Formatierung-Speicherstufe 107 und zum 
Auslesen der Formatierung-Infonnation FI ausgebildet Die Formatierung-Stufe 108 ist 
weiters unter Ausnutzung der Formatierung-Infonnation FI zum Fonnatieren der 

1 S unformatierten Textinformation TI' und als ein Ergebnis des Formatierens zum Erzeugen 
und zum Abgeben der Textinformation TI ausgebildet 

Die Erkennungsmittel 24 weisen weiters eine siebente Modell-Speichestufe 
109 aut die fur jeden Empfengskanal und jede Sprache und jede Spiechergnrppe zum 
Speichem von jeweils einem dritten Phonem-Modell PM3 ausgebildet und vorgesehen 

20 sind. Weiters ist eine siebente Modell-Auswahlstufe 1 10 vorgesehen, die zum Empfangen 
der Kanalangabe-Information CHI und der Sprach-Mbrmation LI und der Sprechergruppe- 
Information SGI ausgebildet ist Die siebente Modell-Auswahlstufe 1 10 ist weiteis unter 
Ausnutzung der loformationen CHI, LI und SGI zum Zugreifen auf das zu diesen 
Informationen CHI, LI und SGI kotrespondieiende dritte Phonem-Modell PM3 in der 

25 siebenten Modell-Speicherstufe 109 und zum Abgeben dieses kanal-, sprache- und 
sprechergruppespezifischen dritten Phonem-Modells PM3 an die Sprachmuster- 
Erkennungsstufe 105 ausgebildet. Die Ericennungsmittel 24 weisen weiters eine Kontext- 
Speicherstufe 111 auf Die Kontext-Speichetstufe 1 1 1 ist zum Speichem der Kontext- 
Daten CD vorgesehen, welche Kontext-Daten CD zu jeder Kontext-Infonnation CI und zu 

30 jeder Sprache eine Lexikon-Information LXI und eine zu der Lexikon-Information LXI 
korrespondierendes Sprache-Modell LM reprasentieren. Die Kontext-Speicherstofe 111 
weist einen Lexikon-Speicherbereich 1 13 auf, in dem die jeweilige Lexikon-Information 
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LXI speicherbar ist, welche Lexikon-Infomiation LXI Worter und Phonem-Transkriptionen 
der W6rter mnfesst Die Kontext-Speicherstufe 1 1 1 weist einen Sprache-ModeU- 
Speicherbeieich 1 12 au^ in dem ein zu der jeweiligen Lexikon-Infannation LXI 
koirespondierendes Spiache-ModeU LM speicherbar ist Die Ericemmngsinittel 24 weisen 
weiters eine Kontext-AuswaWstufe 114 a«^ die zum EiBpfengen der Kontext-Ihfonnation 
CI ausgebildet ist 

Es sei an dieser Stelle erwShnt, dass die Sprache-IiifQimation LI nicht exphzit 
zu der Kontert-AuswaMstufe 1 14 zugefuhrt wiid, weU die Kontext-Ihfittmation CI die 
Spcache implizit leprasentiert. 

Die Kontext-Auswahlstufe 1 14 ist weiters unter Ausnutzmg der Kontext- 
Information CI und der damit implizit reprasentierten Information fiber die jewelHge 
Sprache zum Zugreifen auf das in der Kontext-Speicherstufe 1 1 1 zu der jeweiligen 
Kontext-Information CI korrespondierende Sprach-Modell LM bzw. auf die Lexikon- 
Infotmation LXI und zum Abgeben des ausgewShlten Sprache-Modells LM und der 
ausgewSilten Lexikon-IofiMmation LXI in Form der Kontext-Daten CD an die 
Sptachmuster-Erkennungsstufe 105 aus^bUdet 

Die Sprache-Ericennungsmittel 24 sind weiters auf trainierbaie Weise zum 
Erzeugen der dritten Phonem-Modelle PM3 und der Lexikon-Information LXI und dem 
jeweils zu einer Lexikon-Infonnation LXI korrespondierenden Sprach-Modell LM 
ausgebildet. Die siebente Modell-Speicheistufe 109 und die Kontext-Speicherstufe 111 
bilden in diesem Zusammenhang ttainierbare Ressourcen der Eikennungsmittel 24. 

Zum Zweck des Trainierens der trainierbaren Ressouicen weisen die 
Eikennungsmittel 24 eine siebente Datensttomsteuerstufe 1 15 und eine siebente 
Trainingsstufe 1 16 au£ Die siebente Datenstromsleuerstufe 1 15 ist im Fall des Trainings 
dazu ausgebildet, die Spiadie leprasentierenden Featurevektoien FV nicht an die 
Sprachmuster-Erkennungsstufe 105, sondem an die siebente Trainingsstufe 1 16 
abzugeben. Die siebente Trainingsstufe 1 16 ist zum Empfengen der Sprache 
lepiSsentierenden Featurevektoien FV und der dazu korrespondierenden Training-Text- 
Information Tn ausgebildet Die siebente Trainmgsstufe 1 16 ist weiters unter Ausnutzung 
der Featuievektoren FV und der Training-Text-Informationea TTI und unter ZuWlfenahme 
eines Viterbi-Algorithmus zum Eizeugen und zum Abgeben des jeweiHgen dritten 
Phonem-ModeUs PM3 an die siebente ModeU-Auswahlstufe 1 10 ausgebildet, so dass das 
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dritte tcainierte Phonem-Modell PM3, das zu dem der E^aiialangabe-lBfoxmation CHI bzw. 
zu der Sprache-Infonnatian LI bzw. zu der Sprachegruppe-Infonnation SGI koirespondiert 
mit Hilfe der siebente Modell-Auswahlstufe 1 10 in der siebenten Modell-SpeichCTstufe 109 
an einer durch die Informalioiien CHI, SGI und LI definierten Speicherposition speicherbar 



1 17 au^ die zum EmpGrngen eines durch eine Carpora-InfQnnation COR reprasentierteii 
relativ grofien Trainingstextes, der im Facbjargon als Corpora bezeiclmet wird, ausgebildet 
ist. Die Sprache-Modell-Trainingsstufe 1 17 ist unter Ausnutzung der Corpora-Information 

10 COR und unter Zuhilfenahme des durch die Information CI angegebenen Topic und der 
in^lizit durch die Ittfoimadon CI angegebenen Sprache bestimmten Lexikon-Informadon 
LXI zum Trainieren bzw. zum Erzeugen des zu jeder Kontext-Information CI und der 
damit implizit reprasentierten Sprache korrespondierenden Sprache-Modells LM 
ausgebildet, wobei die dermafien bestimmte Lexikon-Liformation LXI mit Hilfe der 

IS Kontext-Auswahlstufe 1 14 aus Lexikon-Speicherstofe 113 auslesbar und an die Sprache- 
Modell-Trainingsstufe 1 17 abgebbar ist. Die Sprache-Modell-Trainingsstufe 1 17 ist zum 
Abgeben der txainierten Sprachmodelle LM an die KonteKt-Auswahlstufe 1 14 ausgebildet, 
wonach das Sprach-Modell LM mit Hilfe der Kontext-Auswahlstufe 1 14 unter Ausnutzung 
der Information CI an dem jeweils dafur votgesehenen Speicherplatz der Sprache-Modell- 

20 Speicherbereichs 112 gespeichert wird. ■ - 



auf, die eben&lls zum Empfangen der Corpora-Information COR und unter Ausnutzung 
der Corpora-Information COR zum Erzeugen und zum Abgeben einer zu jeder Kontext- 
Information CI und der damit implizit reprasentierten Sprache korrespondierenden 

25 Lexikon-Ltrformalion LXI an die Kontext-Auswahlstufe 1 14 ausgebildet ist, wonach die 
Lexikon-Ioformation LXI mit Hitfe der Kontext-Auswahlstufe 114 unter Ausnutzung der 
bxformation CI an dem jeweils dafur vorgesehenen Speicherplatz der Lexikon- 
Speicherbereich 1 12 gespeichert wird Zum Zweck des Erzeugens der Lexikon-Information 
LXI weisen die Erkennungsmittel 24 eine Hintergrundlexikon-Speicherstufe 119 auf, die 

30 zum Speichem eines Hintergrundlexikons ausgebildet ist, welches Hintergrundlexikon 
einen Grundstock von Wortem und dazu geh5renden phonetischen Transkriptionen von 
WSrtem aufweisl^ die reprasentiert durch eine Hintergrundr-Transkription-Information BTI 



5 



ist 



Die ErmitHungsmittel 24 weisen weiters eine Sprache-Modell-Trainingsstufe 



Die Erkennungsmittel 24 weisen weiters eine Lexikon-Erzeugungsstufe 118 
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aibgebbar ist Die Erkeimimgsimttel 24 wiesen weiters eine Statistik-Transkription-Stufe 

120 au^ die auf Gnmdlage eines statistischen Transkriptionsverfehrens zum Eizeugen 
einer phonetischen Transkription von in dem Trainingstext enthaltenea Wortem 
ausgebildet ist, die reprasentiert dutch eine Statistik-Transkxiption-InfQmiation STI 

5 abgebbarist 

Die ^ennungsniittel 24 weisen weiters eine Ph(metik-T]»nsknpfionsstu& 121 
aii:^ die zum Emp&ngen jedes einzelnen Worfes des Trainingstexts enfhaltenden Coipoia- 
T^-Infonnation CTI und unter BerOcksichtigung der Kcmtext-Ihformation CI und der 
iiiq>Iizit enthaltenen Infonnation fiber die Sprache und zum Bereitstellen bzw. zum 
10 Abgeben einer phonetischen Transkription jedes Wortes der Corpora-Text-lnfomiation CTI 
in Form einer Corpora-Phonetik-Transkription-Infonnation CPTI fur die Lexikon- 
Erzeugungsstufe 118 ausgebildet ist Zu diesem Zweck ist die Phonetik-Transkiiptionsstufe 

121 zumPnifen ausgebildet, ob in derlffintergrundlenkon-Speicherstufe 119 eine 
geeignete phonetische Transkription fur das jeweilige Wort vetfiigjjar ist. Trifft dies zu, so 

15 hfldet die Infoimation BTI die Infbimation CPTI. Ist keine geeignete Transki^on 

verfiigbar, so ist die Ebtonetik-Transkriptiansstufe 121 zum Beieilstellen der das jeweilige 
Wort leprasentierenden Infonnation STT als die Infinmation CTI ausgebildet. 

An dieser Stelle sei erwahnt, dass die dritten Phonem-Modelle PM3 auch als 
akustische Referenzen bezeichnet werden, so dass die trainierbaren Ressouicen die 

20 akustischen Referenzen und den Kontextum&ssen. 

Es sei an dieser SteUe erwahnt, dass bei der Stufe 69, 80, 97 und 1 16 jeweils 
ein sogenanntes Training-Lexikon zum Einsafz komrn^ mit dessen Hilfe aus der Tiaining- 
Text-Infiwrnation TTl eine fBr das jeweilige Training notwendige phonetische 
Tianskription erzeugt wird. 

25 Die auf mehrstudBge Weise erzeug^aien und jeweils erne Spracheigenschafit 

iqwasentierenden Infinmationen ASI, LI, SGI und CI bewirken bd den Sprach- 
Ericennungsmittehi 24 im wesenliichen drei Effekte. GemaB einem ersten EfiFekt wird bei 
der dritten Sprachfilterstufe 104 mit Hilfe der Segmentierung-Infomiation ASI das Filtem 
der Featuievektoren FV gesteuert Dadurch ist der Vorteil edialten, dass das Erkennen der 

30 Textinformation TI autonom und unabhSngig von einer voihergehende Bednflussung - 
beispielsweise dutch ein Hintergrundgerausch - der die Sprachinformation SI 
repcSsentieienden Featurevektoien FV auf prazise und tasche Weise durcMDhibar ist 
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GemaB einem zweiten Effekt wild bei den Ressourcen mit Hilfe der 
Kanalaagabeinfonnation CHI und der Sprache-Information LI und der Sprechergruppe- 
Information SGI das Auswahlen einer zu diesen Infoimationen koncspondierenden 
akustisclien Referenz gesteuert. Daduich ist der Vorteil erhalten, dass ein wesenflicher 
5 Beitrag zu dem prazisen Eilccimen der Textinfonnafioii TI erhalten ist, weil die akustische 
Referenz die akustischen Spracheigenschaften der Sprache mit hoher Genauigkeit 
modelliert Geno^ einem diitten Effekt wild bei den R^sourcen mit Hilfe der Kontext- 
Informaticm das AuswShlen eines Kcmtexts gesteuert. Dadurch ist der Vorteil erhalten, dass 
ein weiteier positiver Beitrag zu einem prazisen und raschen Erkennen der Textinformation 

10 H erhalten ist Hinsichtiich des prazisen Erkennens ist der Vorteil deshalb erhalten, weil 
ein auswahlbarer Kontext den tatsachlich bei einer Sprache vorliegenden Kontext viel 
genauer modelliert als dies im Falle eines starr vorgegebenen relativ groBen Kontexts der 
Fall ware. Hinsichtiich des laschen Edceimens ist der Vorteil deshalb erhalten, weil der 
jeweilige zu einer der Kontext-Information CI korrespondierende Wortschatz nur einen 

15 Teil der Worter emer Sprache abdeckt und daher relativ Mein sein kann und daher 
entsprechend rasch verarbeitbar isL 



Erkennungsstufen 21, 22 und 24 jeweils eine eigene Sprachfilterstufe 61, 76 und 104 
aufweisen. Die Erkennungsstufe 23 enthalt wegen ihrer Funktionalitat implizit eine 

20 Sprachfilterung. Es sei erwahn^ dass an Stelle der drei Sprachfilterstufen 61, 76 und 104 
auch eine einzige in der Figur 1 dargestellte Sprachfilterstufe 122 vorgesehen sein kann, 
die den Erkennungsstufen 21, 22, 23 und 24 vorgeschaltet ist, was aber die Funktionalitat 
der Erkennungsstufe 23 nicht beeintrachtigt Dadurch wSte der Vorteil edialten, dass die 
drei Sprachfilterstufen 61, 76 und 104 nicht notwendig sind und daher auch die 

25 Verarbeitung der Featurevektoren FV unter Umstanden beschleunigt durchfiihrbar ist 



Featurevektor-Extrahierungsmittels 19 jedes der Mlttel 20 bis 24 ein ihm zugeordnetes 
individuelles Featurevektor-Extrahierungsmittel aufweisen kann, dam das vorverarbeitete 
Audiosignal PAS zufiairbar ist Daduich ist eimoglicht, dass jedes der individuellen 
30 Featurevektor-Extrahierungsmittel an die Funktion des jeweiligen Mittel 20 bis 24 optimal 
individuell angepasst sein kann. Dadurch ist der Vorteil erhalten, dass die vektormafiige 
Reprasentation des vorvetarbeiteten Audiosignals PAS individuelle angepasst auch auf 



Im vorliegenden Fall hat es sich als vorteilhaft erwiesen, dass die 



Es sei erwahnt, dass an Stelle des den Mittel 20 bis 24 vorgeschalteten 
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einer anderen als der Cepstral-Ebene stattfinden kann. 

Es sei erwahnt, dass die Spiachjnfonnation SI der 
Spiachericennungseinrichtung 1 auch mit Hilfe eines Speicheamediums oder unter 
Zuhilfenahme eines Coir^utemetzwerks veifugbar gemacht werden kami. 
5 Essdeiwahnti dass die Stufe 12 auch durchHaidwarereaUsiertseinl^ 

Es sei erwghm^ dass die Umwandlungsstu&n-Erzeugimgsstiife 16 auch durch 
eine Hardwareldsung lealisiert sein kann. 

Es sei erwahnt^ dass die Teilbeieiche des Audiosignals PAS und die dazu 
kDirespondierenden Ihfimnationen CHI, ASI, LI, SGI und CI auch als sogenannte 
10 Sofhvareobjekte speicherbar sein konnen und dass die Erkennungsmittel 1 8, 20, 21, 22, 23 
und 24 zum Eizeugen, Vetandem und zum Verarbeiten dieser Softwareobjekte ausgebildet 
sein konnen. Weiters kann voigesehen sein, dass das Speichem der Teilbereiche des 
Audiosignals PAS und das Speichem bzw. das Verwalfen der jeweils zugehorigen 
Infannationen CHI, ASI, LI, SGI und CI selbststSndig von den Mittehi 18, 20, 21, 22, 23, 
15 24 und 25 durchgefiihrt weiden kann. Es sei weiters erwahnt, dass die Mittel 8, 19 und die 
Stufe 122 durch ein Softwateobjekt lealisiert sein kann. Gleiches gilt auch fiir die 
Erkennungsmittel 18, 20, 21, 22, 23, 24 und 25. Weiters sei erwShnt, dass die Mittel 8, 1 8; 
19, 20, 21, 22, 23, 24 und 25 und die Stufe 122 auch dutch E^dware realisiert sein 
konnen. 

20 Das Mittel 24 realisiert in demvorstehenderlautertenAusfuhrungsbeispiel " 

einen sogenannten „Large Vocabulary Continuous Speech Recogniser". Es sei jedoch 
erwahnt, dass die Mittel 24 auch einen sogenannten ^Command and Control Recogniser" 
realisieren konnen, wobei in diesem Fall der Kontext nur aus emem Lexikon ohne ein 
Sprache-Moden besteht Weiters sind zusfitzHch MaBnahmen vorgesehen, die em 

25 Verwalten von mindestens einem Giammatik-Modell erlauben. 

Fur die Zwecke der Mittel 23 und 24 kann auch vorgesehen sein, dass die 
InformatiQn CHI, LI und SGI zu einer sogenannten Phonem-Modell-Infoimation 
zusammengefesst sind, weil die drei Informationen das jeweilige Phonem-Modell 
bestimmen, obwohl die Information LI bei dem Mittel 23 unabhangig und zusfitzlich zu der 

30 Phonem-Modell-Information verwendet wird. Dadurch ist der Vorteil erhalten, dass die 
Ardiitektur der Spracherkennungseinrichtung 1 veiein&dbt ist 

Weiters kann voigesehen sein, dass bei den Mittel 20 zusatzlich em Erkennen 
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PatentansDriiche: 

1 • Spracherketmiuigseiiiriclitung zum Erkennen einer zu einer 



Sprachinfonnation koirespondierenden Textinfonnation, welche Spi^hiBformation 
hinsichHich von Spracheigenscliaften chaiakterisierbar ist, 

wobei erste Spracheigenschaft-Erkemnmgsmittel vorgesehen sind, die unter Ausnutzung 
der Spiachiirfoimation zum Eikennen einer ersten Spracheigenschafi und zum Etzeugen 



einer die erkannte erste Spracheigenschaft reprasentieiendm ersten 
Eigenschaftsinformation ausgebildet sind, und 

wobei zumindest zweite Spracheigenschaft-Erkennungsmittel vorgesehen sind, die unter 
Ausnutzung der Sprachinfonnation zum Erkennen einer zweiten Spracheigenschaft der 
Sprachinformation md zum Eizeugen einer die erkannte zweite Spracheigenschaft 
reprasentierenden zweiten Eigenschaftsinformation ausgebildet ist, und 
wobei Sprach-Erkennungsmittel vorgesehen sind, die unter fortwShiender 
Beriicksichtigung von zumindest der ersten Eigenschaftsinformation und der zweiten 
Eigenschaftsinformation zum Erkennen der zu der Sprachinformation korrespondieiendeii 
Textinformation ausgebildet sind 

2. Sprachedcexmungseinrichtung nach Anspmch 1, 
wobei Empfongsmittel vorgesehen sind, die zum Empfengen der Sprachinformation fiber, 
mindestens zwei erkemibare Empfangskanale ausgebildet sind, und 
wobei Empfangskanal-Erkennungsmittel vorgesehen sind, die zum Eikennen des jeweils 
zum Empfongen der Sprachinformation verwendeten Empfongskanals und zum Erzeugen 
einer den erkannten Empfongskanal leprasentierenden Kanaldngabe-Information 
ausgebildet sind, und 

wobei mindestens eines der mindestens zwei Spracheigenschaft-Erkennungsmittel 
oder/und die Sprach-Erkennungsmittel zum Beriicksichtig^n der Kanalangabe-Infomiation 
ausgebildet ist. 



wobei die Sprach-Erkennungsmittel zeitverzogert um mindestens eine Zeitspanne, die von 
den mindestens zwei Spracheigenschaft-Erkeimimgsmittehi zum Erzeugen der mindestens 
zwei Eigenschaftsinformationen bendtigt wird xmd wahrend der ein Teil der 



^eugen der mindestens zwei Eigenschaftsinformationen ausgenutzt wird, zum Erkennen 



3. Sprachedcennungseinrichtung nach Anspmch 1 , 



Sprachinformation von den mindestens zwei Spracheigenschaft-Edcennungsmitteln zum 
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der Textuxfonnation ausgebildet sind, die zunuiidest zu einem Teilbereich des zum 
&zeugen der mindestens zwei zugefiihrteii Eigenschafitsinfonnationen ausgenutzten Teils 
der Sprachinfonnation korrespondieren. 



5 wobei mindestens dne mit Hilfe von Spracheigenschaft-Erkennungsmitteln eizeugte 
Eigenschaftsinformation anderen Spracheigenschaft-Erkennungsmitteln zufuhrbar ist und 
wobei die anderen Spracheigenschaft-Erkennungsmittel beim Erkennen der 
Spracheigenschafl: der Sprachinformation und beim Eizeugen der Eigenschaftsinformation 
zum Beriicksichtigen der mindestens einen zugefuhrten Eigenschaftsinformation 
1 0 ausgebildet sind. 



wobei die anderen Spracheigenschaft-Erkennungsmittel, zeitveizdgert um mindestens eine 
Zeitspanne, die zum Erzeugen der mindestens einen zugefuhrten 

Eigenschaftsinformationen benotigt wird imd wShrend der ein Teil der Sprachinformation 
15 von den Spracheigenschaft-Erkennungsmitteln zum Erzeugen der mindestens einen 

zugefuhrten Eigenschaftsinformationen ausgenutzt wird, zum Erkennen der 

Spracheigenschaft ausgebildet sind, die zumindest einen Teilbereich des zum Erzeugen der 

mindestens einen zugefiihrten Eigenschaftsinformation ausgenutzten Teils der 

Sprachinformation charakterisiert. 
20 6. Spiacherkennungsver&hren zum Erkennen einer zu einer 

Sprachinformation korrespondierenden Textinformation, welche Sprachinformation 

hinsichflich von Spracheigenschafien charakterisierbar isl^ 

wobei unter Ausnutzung der Sprachinformation eine erste Spracheigenschaft erkannt witd 
und 

25 wobei eine die erkannte erste Spracheigenschaft reprasentierende erste 
Eigenschaftsinformation erzeugt wird und 

wobei unter Ausnutzung der Sprachinformation nodndestens eine zweite Spracheigenschaft 
erkannt wird und 

wobei eine die erkannte zweite Spracheigenschaft reprasentierende zweite 
30 Eigenschaftsinformation erzeugt wird und 

wobei die zu der Sprachinformation korcesfpondierende Textinformation unter 
fortwahrender Beriicksichtigung von zumindest der ^ten Eigenschaftsinformation und der 



4. Spracherkennungseinrichtung nach Anspmch 1 , 



S. Spracherkennungseinrichtung nach Anspmch 4, 
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zwetten EigenschaSsinfomiationen erkaimt wuxL 

7. Spracherkeimimgsverfahren nach Anspruch 6, 

wobei die Spiachinformatioii fiber einen Empfengskanal von mmdestens zwei erkennbaren 
Emp:^gskaBalen empfangen wird und 
5 wobei der jeweils zum Empfengen der Sprachinfisrmatioii verwendete RmpfimgiVnnnl 
ericannt und eine den eikannten Enip&ngskanal lepiSsentieiende Kanalangjibe-Infomiation 
eizeugt wild und 

wobei zumindest bei dem Erzeugen von mindestens einer der EigenschaftsinfijmiatiQnen 
oder/und bei dem Erkennen der Textinfiimiation die Kanalangabe-Infonnation 
10 berOcksichtigtwiid. 

8. Spiacberkennungsveriahien nach Anspruch 6, 

wobei das Erkennen der zu der Sprachinfonnation konespondieienden Textinfoimation 
zeitverzogert um mindestens eine Zeitspanne , die zum Erzeugen der mindestens zwei 
Eigenschaflsinformationen benStigt wild und wahrend der ein Teil der SptachinfinmatiQn 
15 2Mm Erzeugen der mindestens zwei Eigenschaflsinfonnationenausgenii^ : 
zumindest zu einem Teilbereich des zum Erzeugen der mindestens zwei ! 
Eigenschaflsinfennationen ausgenutzten Teils der Sprachinfonnation korrespondietende.^ 
Textinformation erfolgt 

9. Spracherkennungsver&hren nach Anspruch 6, 

20 wobei mindestens eine Spracheigenschaft unter Beriicksichtigung von mindestens einer 
nicht diese Spracheigenschaft reprasentierenden Eigenschaftsinformation edcannt wird und 
eine die erkannte Spracheigenschaft reprasentierende Eigenschaftsinformation etzeugt 
wird. 

10. Spracherkennungsverfehren nach Anspruch 9, daduich gekennzeichnet, 
25 wobei das Edcennen der mindestens einen Spracheigenschaft unter Beriicksichtigung von 

mindestens einer nicht diese Spracheigenschaft reprasentierenden Eigenschaftsinformation 
zeitverzogert um mindestens eine Zeitspamie, die zum Erzeugen der mindestens einen 
nicht diese Spracheigenschaft reprasentierenden Eigenschaftsinformation benotigt wird und 
wahrend der ein Teil der Sprachinformation zum Erzeugen der mindestens einen nicht 
30 diese Spracheigenschaft reprasentierenden Eigenschaftsinformation ausnutzbar ist, fur 
zumindest einen Teilbereich des zum Erzeugen der mindestens einen nicht diese 
Spracheigenschaft r^risentierenden Eigenschaftsinformation ausgenfitzten Teils der 
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Sprachinfonnation erfolgt. 

11. Computerprogrammprodukt, 

das direkt in einen Speicher eines Computers geladen werden katm und 
Softwarecodeabsclmitte umfasst, wobei mit dem Computer das 
S Spracherkemiunggver&hren gemaB dem Anspruch 6 abgearbeitet werden kann, wemi das 
Computeipiogrammprodukt auf dem Computer abgearbeitet wild. 

12. Coiiq)uterprogramniprodukt nach Anspruch 1 1 , 

wobei das Computerprogramniprodukt auf einem coniputerlesbaren Medium gespeichert 
ist. 

10 13. Computer mit einer Recheneinheit und einem intemen Speicber, welcher 

Computer das Computerprogrammprodukt gemafi dem Anspmcb 1 1 abarbeitet. 
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Zusammenfassung 



Spracher kenTiiinprR eimichtung mit Mitteto 
Tiim Bem cksichtigen vnn min destens zwei Soracheip fenscligften 



5 



Bei ei&er zum Erkeimen emer zu einer SpiiachinforiDatioii (SI) 



kQxrespQndierenden Textiixfonnalion (TI), wobei die Spraclrnxformation (SI) hinsdchflicli 
von Spracheig^chaften chaiakterisierbar ist, sind erstens mindestens zwei 
Spiacheigenschaft-Erkennungsmittel (20, 21, 22, 23) vorgesehen, wobei jedes der 

1 0 Spiacheigensclmft-Erkennmgsmittel (20, 2 1 , 22, 23) unter Ausnutzung der 

Spiacbinformation (SI) zum Erkennen einer ihm zugeordneten Spracheigenschaft und zum 
Erzeugen einer die erkannte Spracheigenschaft rejirasentierenden Eigenschaftsinformation 
(ASI, LI, SGI, CI) ausgebildet ist, und sind zweitens Sprach-Erkennungsmittel (24) 
voigesehen, die unter fortwShrender Berucksichtigung der nundestens zwei 

1 5 EigenschafisinformatiQnen (ASI^ LI, SGI, CI) zum Erkennen der zu der Spiachinformation 
(SI) koxrespondierenden Textinformation (Tl) ausgebildet sind 
(Figur 1). 
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